Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ChatGPT 人間のフィードバックから強化学習した対話AI

ChatGPT 人間のフィードバックから強化学習した対話AI

東京大学の研究室内で,今井がChatGPTの知見を共有するために使用したスライド資料です.
特に以下のような話題,技術について解説しています.
・ChatGPTの凄さ
・ChatGPTの技術
・言語モデル
・プロンプト
・GPTとは
・InstructGPT
・言語モデルと強化学習
・RLFH

Transcript

  1. ChatGPT
    ⼈間のフィードバックから強化学習した対話AI
    東京⼤学 ⼤学院⼯学系研究科 技術経営戦略学専攻
    今井 翔太
    Email: [email protected]
    Twitter:今井翔太 / Shota [email protected]えるエル
    @ImAI_Eruel

    View Slide

  2. 本資料について
    n 本資料は,OpenAIが12⽉1⽇に公開した対話AI「ChatGPT」について,今井が関連する
    話題,研究をまとめたものです
    n 現時点では,ChatGPTそのものに関する論⽂は公開されていないため,技術的な情報は
    既存研究からの推測に⼤きく依存します
    n 本資料はChatGPTの反響に対する速報版資料ともいうべきもので,
    今後アップデートされる可能性があります
    n 実はこの資料の解説⾃体が,⼀部ChatGPTの出⼒を使って作られています
    Shota Imai | The University of Tokyo
    2
    Reinforcement
    Learning Is All You
    Need

    View Slide

  3. もくじ
    n ChatGPT
    n GPTとその関連技術
    n ChatGPTのコア技術InstructGPT
    n 参考資料
    Shota Imai | The University of Tokyo
    3

    View Slide

  4. ChatGPT
    Shota Imai | The University of Tokyo 4

    View Slide

  5. ChatGPT
    n 12⽉1⽇にOpenAIが公開した対話AIで,今までのGPTシリーズに⼈間からのフィードバックをもと
    にした強化学習を⾏ない,⼈間に対して「好ましい」出⼒をするように学習された⾔語モデル
    ChatGPTのブログポスト:https://openai.com/blog/chatgpt/
    ChatGPT:https://chat.openai.com/chat
    n 今までの⾔語モデルと⽐較して明らかに性能が向上しており,⽇本語にも対応.ほとんどの質問に
    対する⾃然な回答,コピペで動く⾼度なプログラミングコードの⽣成,翻訳,⽂章構成,⽂章要約,
    ⽂章校正が可能
    n 現時点(2022年12⽉7⽇)では,ChatGPTそのものに関する論⽂は公開されておらず,Research
    Previewとして,ブログの投稿と,試⽤サイトが公開されているのみ
    ※ChatGPTを利⽤したフィードバックのコンテストの締切が12⽉31⽇であるため,最低でもそこまでは公開されていると考えられる
    Shota Imai | The University of Tokyo
    5

    View Slide

  6. ChatGPT / みんなの反応
    n 世界中のテクノロジー界隈の著名⼈が絶賛
    n テクノロジーの歴史における稀に⾒る⾰命という認識も
    Shota Imai | The University of Tokyo
    6

    View Slide

  7. ChatGPTでできること
    ⾔語を使う,⾔語で完結するものであればほとんどなんでもできる
    n 質問回答
    - ⼤体の質問には回答してくれ,それなりに事実に基づき,提⽰される情報も豊富
    - ただし,確定した事実や数字・論理に関わることは苦⼿
    n ⽂章校正
    - ⽇本語の⽂に対して「以下の⽂章を丁寧にしてください」といった使い⽅や,英⽂校正みたいに正
    しい英語に書き直してくれる
    n ⽂章要約
    - かなりの⻑⽂でも要点を抑えて要約できる
    - 論⽂や書籍も記憶しているようで,タイトルを投げたらそのまま要約も返してくれる
    n プログラミングコードの⽣成
    - そのままコピペして実⾏可能なコードを⽣成してくれる
    - コピペだけで Webサービスや,ゲームを作れるレベルのコードの⽣成が可能
    - エラーが出た場合は,それを⼊⼒すると,エラーを回避するようなプログラムを提案してくれる
    n 提案
    - 「〜を書いてみてください」,「~提案してください」とすることで,まだ存在しない未知の物事
    や計画などを書いてくれる
    その他⾊々
    Shota Imai | The University of Tokyo
    7

    View Slide

  8. ChatGPTの出⼒⾊々
    Shota Imai | The University of Tokyo
    8

    View Slide

  9. ChatGPTの技術 / 概要
    n 基本的には,GPT-3に対して強化学習(RLHF; Reinforcement Learning from Human
    Feedback)を⾏なったInstructGPTをベースにしていると考えられる
    n InstructGPTで学習されたモデルは「GPT-3.5」シリーズと呼ばれ,2022年初頭に学習さ
    れたこのシリーズのモデルに微調整を加えたのがChatGPT
    n InstructGPTの論⽂が公開されてから相当な⽇数が経過していることを考えると,実際に
    はInstructGPTをベースに相当な試⾏錯誤があったと考えられ,論⽂に書いてある実装・
    ⼿法とは異なる点も多そう
    n 学習のインフラにはAzureを使⽤
    ※GPT-3公開後にMicrosoftは独占ライセンスを取得するなどして提携している
    n ChatGPTはGPTの出⼒に,ModerationAPIによるフィルタをかけたものを最終的な出⼒
    にしている
    Shota Imai | The University of Tokyo
    9

    View Slide

  10. ChatGPTのコア技術 / InstructGPT
    n ChatGPTのコアとなっている技術と考えられ,GPT-3に対して⼈間のフィードバックに
    もとづく強化学習(RLHF; Reinforcement Learning from Human Feedback)を⾏
    なったモデル
    - Training language models to follow instructions with human feedback
    - https://arxiv.org/abs/2203.02155
    n 本資料で詳しく解説
    Shota Imai | The University of Tokyo
    10

    View Slide

  11. ChatGPTの技術 / ModerationAPI
    n GPTの出⼒に有害なコンテンツが含まれているかを評価し,アプリケーションにおける
    有害な動作を防ぐ
    n OpenAI APIのユーザも使⽤可能
    n テクニカルペーパーも公開されている
    - A Holistic Approach to Undesired Content Detection in the Real World
    - https://arxiv.org/abs/2208.03274
    Shota Imai | The University of Tokyo
    11

    View Slide

  12. 補⾜ / OpenAIのGPTシリーズのモデルと利⽤形態あれこれ
    n OpenAIはいくつかのGPTの学習されたモデル,APIを運⽤している
    - これらのモデルはパラメータ数や学習⽅法の点で同じGPT-〇でも差分がある
    - 例えば単に「GPT-3」と⾔った場合,それが指す学習済みモデルは複数存在する
    (GPT-3 6.7B, GPT-3 2.7B, GPT-3 175Bなど)
    - それらのモデルに対して,異なるAPIが割り当てられている
    n 現在の最新モデルは,GPT-3 (or Codex)ベースのモデルに対して強化学習を⾏なった
    InstructGPTのモデルで,text-davinci-002, text-davinci-003等のモデルとAPIが公開さ
    れている
    n 特に以下のモデルはGPT-3.5シリーズと呼ばれ,ChatGPTもこのモデルを元にしている
    - code-davinci-002
    - text-davinci-002
    - text-davinci-003
    Shota Imai | The University of Tokyo
    12

    View Slide

  13. text-davinci-003とその利⽤
    n ChatGPTの公開直前である11⽉末に公開されたモデルで,APIが公開されているモデル
    の中では最も性能が⾼いモデル
    n ChatGPTはこれの亜種,調整版と考えられる(あくまで推測)
    n OpenAIのアカウントを持っていれば,OpenAIのPlaygroundから利⽤できる
    https://beta.openai.com/playground
    Shota Imai | The University of Tokyo
    13
    ※この対話の真偽は不明

    View Slide

  14. GPTとその関連技術
    Shota Imai | The University of Tokyo 14

    View Slide

  15. GPTとは?
    n GPTは「Generative Pre-trained Transformer」の略で,OpenAIが開発している
    Transformerベースの⼤規模な事前学習済み⾔語モデルを指す
    n 初代GPTからGPT-2,CPT-3までの研究論⽂が公開されており,WebGPTなどの亜種も
    存在
    n 実際にユーザーがGPTに対して⽣成を指⽰できるOpenAI APIや指⽰⽂に応じて
    プログラミングコードを⽣成するCodeX Copilotなどのサービス提供もある
    n モデルのサイズが⾮常に⼤きい(GPT-3で1750億)ことと,GPT以前の⾔語⽣成AIと⽐
    べて圧倒的に性能が⾼いことが特徴で,シリーズが公開される度に話題に
    Shota Imai | The University of Tokyo
    15

    View Slide

  16. GPTの学習
    1. Webからテキストデータをクローリングして集める
    2. テキストからデータに使えるものを取捨選択,整形
    3. 巨⼤なTransformer(ニューラルネットワーク)に対し,
    集めたデータから作った⼤量の⽳埋め問題を学習させる
    Shota Imai | The University of Tokyo
    16
    Wikipedia Reddit
    学術サイト
    github
    Webから集めるデータ
    GPT
    このりんごはとても おいしい
    Transformerベースの
    ニューラルネットワーク

    View Slide

  17. Transformer
    Attention Is All You Need
    n 現在のAI・機械学習において最も利⽤されている・注⽬されている・性能を発揮してい
    る深層学習のアーキテクチャであり,self-attentionがコア技術
    n もともとは,機械翻訳を⾏う⼿法として提案されたが,現在では翻訳にとどまらず,画
    像認識,強化学習などなど深層学習を使うほとんどのタスクで圧倒的な性能を発揮
    n あまりにも有名なモデルゆえに⼤量の解説記事・書籍が存在するため,詳細はそちらを
    参照
    Shota Imai | The University of Tokyo
    17

    View Slide

  18. ⾔語モデル(Language Model)
    n 単語や⽂章が⽣成される確率をモデル化したもの
    n 例えば,以下のような⽂の⽳埋め問題で,「このりんごはとても」までを⼊⼒して,次
    の( )にはいる単語の確率を出⼒し,最も⾼い確率の単語を割り当てる
    ⽂:このりんごはとても( )
    (1) おいしい 0.8
    (2) 寂しい 0.1
    (3) です 0.05
    (4) ペン 0.05
    →「おいしい」を出⼒
    n 近年はTransformerをベースにした⾔語モデルがほとんどで,特に⼤規模なTransformerを
    使⽤したものを⼤規模⾔語モデル(LLM; Large Language Models),⼤量の⾔語データ
    で学習したものを事前学習モデル(⼤規模事前学習⾔語モデル)と呼ぶ
    Shota Imai | The University of Tokyo
    18

    View Slide

  19. プロンプト(Prompt)
    n ⾔語モデルの出⼒を得る(促す, Prompt)ために,⾔語モデルに⼊⼒する⽂字列,
    指⽰⽂を指す
    n ⾔語モデルの知識から所望の出⼒(プログラムコード,提案,翻訳⽂,質問回答)を
    得るには,適切なプロンプトを⼊⼒する必要がある
    n ⾔語モデルのほか画像の⽣成モデルを含む,いわゆる「⽣成AI」の普及に伴い,最近は
    「呪⽂(Spell)」などと呼ばれることも
    n プロンプトを⼯夫してAIに所望の出⼒をさせる技法の試みはプロンプトエンジニアリン
    グとも
    Shota Imai | The University of Tokyo
    19
    プロンプト
    プロンプトに対する
    ⾔語モデルの出⼒

    View Slide

  20. GPT
    Improving Language Understanding by Generative Pre-Training
    n Transformerのデコーダをベースにラベルなしの事前学習を⾏い,タスクに応じた少数の
    ラベル付きファインチューニングを⾏なって,さまざまなタスクで性能を評価した
    n GPTは少数のラベル付きデータのファインチューニングのみで,常識推論,質問応答
    などのタスクで,各タスクに特化したモデルを超える性能を達成
    n パラメータ数は170m(1億1700万)
    Shota Imai | The University of Tokyo
    20

    View Slide

  21. GPT-2
    Language Models are Unsupervised Multitask Learners
    n GPTのモデルはほとんど変更せず,パラメータ数が⼤きいモデルに⼤規模な事前学習
    のみを⾏なって,特定タスクにおけるラベル付きの学習は⾏わなずzero-shot, の設定で
    性能が出るようにしたモデル
    - zero-shot:例を⼀歳与えずに新しいタスクを解かせる
    n パラメータ数は15億
    Shota Imai | The University of Tokyo
    21
    zero-shotの例

    View Slide

  22. GPT-3
    Language Models are Few-Shot Learners
    n GPT-2のアーキテクチャはほぼそのままに,モデルのパラメータ数を175B(1750億)に
    した超⼤規模⾔語モデル
    n GPTシリーズが本格的に「ヤバい」と思われたのはGPT-3からで,⼤規模モデルの性能
    に関する本格的な議論が始まった元祖
    n パラメータ数を極限まで増やしたことで,突如できるようになるタスクが存在する,
    振る舞いが明らかに変わるなどの現象が確認された
    22

    View Slide

  23. CodeX, Copilot
    Evaluating Large Language Models Trained on Code
    n GPTのような⾔語モデルをプログラミングコードの⽣成に⽤いたモデル
    n GitHubから獲得したコードのデータセットでGPTのモデルをファインチューニングした
    パラメータ数120億のモデルを使⽤
    n 最終的には77.5%の割合で評価のテストに通るモデルに
    Shota Imai | The University of Tokyo
    23

    View Slide

  24. 基盤モデル(Foundation Model)
    n GPTシリーズなども含め,⼤規模な深層学習のモデルを膨⼤なデータで学習し,様々な
    応⽤の基盤(Foundation)にできるモデルの総称で,スタンフォード⼤学の研究者らの
    論⽂“On the Opportunities and Risks of Foundation Models”で提唱された概念
    n 現在までに,⾔語,画像,⾳声,⾏動,プログラムなど様々なモーダルを扱える基盤モ
    デルが登場し,AIの研究で特に注⽬され,産業応⽤が期待・すでに実⽤化
    n 億を超える⼤量パラメータのモデルであることを特徴とし,学習には膨⼤なデータと
    計算資源が要求される
    Shota Imai | The University of Tokyo
    24
    DALL・E,Imagen,
    StableDiffusion, Magic3D等
    (⾔語→画像,⾔語→3Dモデル)
    CodeX
    (⾔語→コード)
    GPTシリーズ,PaLM,FLAN等
    (⾔語→⾔語)
    whisper
    (⾳声→⾔語) Gato
    (⾔語,画像,⾏動→⾔語,画像,⾏動)

    View Slide

  25. ChatGPTのコア技術
    InstructGPT
    Shota Imai | The University of Tokyo 25

    View Slide

  26. ChatGPTに関連する⼿法・論⽂
    n 基本的には,GPT-3をさらに⼈間の嗜好に合うように強化学習した
    InstructGPTをベースにしていると考えられる
    n 関連論⽂
    - Learning to summarize from human feedback
    • ⼈間のフィードバックから報酬を⽣成するReward modelを学習し,⾔語モデル
    の強化学習に使う発想
    - Training language models to follow instructions with human feedback
    • Reward modelによる⾔語モデルの強化学習を,GPT-3に対して本格的に実⾏し
    たInstructGPTに関する論⽂
    Shota Imai | The University of Tokyo
    26

    View Slide

  27. 従来のGPTの問題点
    n データセットとして集めた⼤量のWebテキストデータ⾃体には,好ましくないテキスト
    も⼤量に含まれる
    - 暴⼒的,デマ,陰謀論,極端な政治的主張,倫理に反する内容…など
    n GPTのような⾔語モデルはデータをもとに,「もっともらしい」⾔語出⼒をするように
    学習するだけなので,これらの問題を考慮・回避するようにはされていない
    n つまり,⼈間「らしい」⾔語の出⼒は可能だが,⼈間が「好ましい」出⼒をするように
    は学習されていない
    (例)「会社の上司との関係が悪いのですが,どうしたらいいですか?」という⽂章をGPTに⼊⼒し
    た場合のGPTの出⼒
    好ましくない出⼒
    ・暴⼒的である,倫理に反する内容も含まれているが,⼈間
    の⾔語としては⽂法も語彙も破綻しておらず正しい
    ・Webにはこのような⽂章も多量に含まれる
    まずはその上司を⼀発殴ってやりま
    しょう.暴⼒は全てを解決します.
    または,その上司が⾔うことをすべ
    て無視するのもいいかもしれません.
    最終⼿段としては,その上司の秘密
    情報を⼊⼿して・・・
    GPT
    いくつかの選択肢があります.
    まずは,上司本⼈と時間をとって⼀対⼀で
    話合うことが考えられます.
    他に考えられるのは,その上司のさらに上
    司にあたる⼈などに相談することです.
    社内で尽くせる⼿段をとっても解決しない
    場合,社外の相談機関に頼ることも考える
    べきです.
    GPT
    好ましい出⼒
    ・暴⼒的な内容,倫理に反する内容を含まず,⽂法,語彙も正しい
    ・解決策が⼀つではないことを⽰し,⼈間に最終的な判断を委ねる

    View Slide

  28. GPTが⼈間にとって「好ましい」出⼒をするにはどうすべきか
    1. Webからテキストを適当に集めて学習するのではなく,⼈間の⽅で,⼊⼒と答えてほし
    い⽂章のセットを⽤意して学習させる
    → 教師あり学習(Supervised Fine-Tuning )
    2. 適当に⼊⼒したデータへのGPTの出⼒に対して,好ましさに関するなんらかの「フィー
    ドバック」(例えば,1~10点の間で点数づけをする)を与えて学習
    →⼈間のフィードバックによる強化学習(RLHF; Reinforcement Learning from Human
    Feedback)
    n ChatGPTに先⾏して「InstructGPT」という技術で上記の要素を取り⼊れたGPTを実現
    n ChatGPTはこのInstructGPTをさらに⼤規模に学習,調整したものと考えられる
    Shota Imai | The University of Tokyo
    28

    View Slide

  29. ChatGPTのコア技術
    InstructGPT
    n GPT-3などの⼤規模⾔語モデルは,かなりの精度でもっともらしい⽂章出⼒ができるよ
    うになったが,事実に反すること,有害なこと,ユーザにとって役に⽴たない⽂章を⽣
    成することも多かった
    →アライメント問題
    n アライメント(Alignment):⾔語モデルに⼈間のユーザに沿った好ましい出⼒をさせ
    ること
    n ⼈間による出⼒の評価をもとに強化学習を⾏うRLHF(Reinforcement Learning from
    Human Feedback)で⾔語モデルのアラインメントを⾏うことにより,パラメータ数が
    100倍以上のモデル(13億 vs. 1750億)よりも,
    - ⼈間視点で「よい」出⼒に
    - パラメータが少ないことによる全体的な性能低下は最⼩限
    - 事実の出⼒が多く,有害な出⼒が少なく
    n アライメントを⾏うことにより,⼀部のタスクへの性能が下がってしまう問題
    (Alignment tax; アライメントの税)も最⼩限
    Shota Imai | The University of Tokyo
    29

    View Slide

  30. InstructGPTの特徴
    n GPT-3などと⽐べて,より⼈間視点で好ましい出⼒を⾏う
    n GPT-3などと⽐べて,より事実に基づく出⼒を⾏う
    n GPT-3などと⽐べて,有害な出⼒が減少した
    n アライメントの結果,有名な⾔語処理タスクの⼀部に対して性能が低下した(alignment
    tax; アライメントの税)ものの,その影響は最⼩限
    n RLHFで出現しないような指⽰⽂に対しても⾼い汎化性能
    n 確定した事実に関する間違い(e.g. 都道府県の⾯積,⼈名など),簡単な質問に対する
    無駄に⻑い回答,誤った前提の質問(e.g. 靴下の⾎液は何⾊ですか?)をそうだと検知
    できないなど,まだ⽋点がある
    Shota Imai | The University of Tokyo
    30

    View Slide

  31. InstructGPTの性能
    n GPT :1750億パラメータを持つ通常のGPT-3
    n GPT-prompted:GPT-3に有益なプロンプトを与えたモデル
    n PPO-ptx:InstructGPT
    横軸:モデルのパラメータ数
    縦軸:出⼒を175Bのモデルの出⼒と⽐較して,
    ⼈間が「こちらの⽅が良い」と評価した⽐率
    パラメータが⾮常に⼩さい1.3Bの時点で,
    175Bのモデルよりも強化学習を⾏なったPPO-ptxの⽅が⾼い性能を出している
    Shota Imai | The University of Tokyo
    31

    View Slide

  32. InstructGPTの学習概要
    n Step1
    - プロンプトのデータを学習するモデルに出⼒させ,そ
    のプロンプトに対する⼈間のlabelerの回答を元に教師
    あり学習
    n Step2
    - あるプロンプトに対する出⼒を複数集め,その出⼒に
    関する「好ましさ」を,⼈間のlabelerがランク付けす

    - その後の,そのランク付きデータをもとに,後の強化
    学習における報酬を⽣成するReward model(RM)を
    学習
    n Step3
    - あるプロンプトに対するGPTモデルの出⼒に対して,
    Reward Modelが報酬を⽣成し,PPOによる強化学習
    を⾏う
    n Step3の完了後,強化学習した新しいGPTモデルを
    使ってStep2~3を⾏う〜という⼿順を繰り返す
    n この⼿順で学習するベースのモデルは,今まで運⽤
    していたGPT-3の学習済みモデル
    Shota Imai | The University of Tokyo
    32

    View Slide

  33. Supervised Fine-Tuning (SFT)
    n プロンプトデータの⼊⼒に対する出⼒を,labelerによる回答をもとに教師あり学習
    n 学習は16エポック
    n 学習率はcosine learning rate decayで調整
    n residual dropout of 0.2
    n 最終的なモデルの選定は後述のRMをベースに選ぶ
    n エポックの初期は過学習していたが,エポックの進⾏とともにRM scoreや⼈間の嗜好に
    あった出⼒をするように
    Shota Imai | The University of Tokyo
    33

    View Slide

  34. Reward Model(RM)
    n Labelerがプロンプトの出⼒に対してランク付を⾏い,そのランク付きデータから学習
    n 学習に使⽤するモデルは,GPT-3のSFTで学習を⾏なったモデルのうち,パラメータ数
    6B(60億)のモデルの最終層のレイヤを除いて,報酬のスカラー値を⼀つ出⼒するよう
    にしたもの
    - 175BのRMは不安定で機能しなかったとのこと
    - この6BのRMを,全てのInstructGPTの学習に使⽤
    n labelerは,あるプロンプトに対する出⼒をSFTを⾏なったモデルから複数得て,それを
    K=4からK=9の間でランク付する
    n RMはプロンプト𝑥に対する出⼒yを⼊⼒として,報酬を出⼒するモデル𝑟!(𝑥, 𝑦)と書ける
    n RMは,出⼒の⽐較を利⽤して以下の損失関数で学習される
    - 𝑦!
    はより好ましいランクの出⼒,𝑦"
    は 𝑦!
    と⽐較してランクが低い出⼒
    - ある1つのプロンプト𝑥に対し,ランク付けされた出⼒K個が存在するため,組み合わせの数は #
    𝐶$
    個存在
    する(ランク数が4個なら %
    𝐶$
    =6個)
    - σはシグモイド間数
    - この損失の最⼩化により, 𝑟&
    (𝑥, 𝑦)はあるプロンプトに関して⼈間が好ましい出⼒により⾼い報酬を出す
    ようになる
    Shota Imai | The University of Tokyo
    34

    View Slide

  35. 強化学習
    n ここまでで得たSFTのGPTモデルとRMを⽤いて強化学習を⾏う
    n 強化学習のアルゴリズムとしてはPPO(Proximal Policy Optimization)を使⽤
    n ここでの環境は,⼀つのプロンプトを⼀つの状態とみなすバンディット型の環境とみな
    せる
    n プロンプトxに対するモデルの出⼒𝜋"#$(y | x)に対して,⼊⼒xと出⼒yに対するRMに
    よる報酬の出⼒𝑟! (𝑥, 𝑦)を使う
    - ⼈間の好みを反映したRMがGPTモデルの出⼒の良さを報酬として評価するため,報酬を最⼤
    化する強化学習によって学習されたモデルは,良い報酬を得る=⼈間に取って好ましい出⼒を
    するように改善される
    n 強化学習の⽬的関数を以下にしたものが,PPT-ptxとして⾔及されているInstructGPTの
    モデル
    - 𝜋!"#はSFTを⾏なった直後のモデルの出⼒, 𝜋$%が最適化を⾏うGPTモデルのRL⽅策
    - ⼀般的なNLPデータセットへの性能低下を防ぐため,それらのデータへの勾配も加えている
    Shota Imai | The University of Tokyo
    35

    View Slide

  36. 補⾜ / PPO
    n 強化学習における⽅策勾配法の⼀つTRPOを,より実装を単純にし,強⼒にしたもの
    - TRPO(Trust Region Policy Optimization):⽅策勾配において適切な勾配の更新幅を保証
    n 更新前の⽅策と新しい⽅策の確率密度⽐が,ある値1 − 𝜖, 1 + 𝜖の範囲に収まるよう制約
    をかけて学習
    n 強化学習,⽅策勾配法などの話は⻑くなりすぎるので,資料末の「参考資料」の中から
    ⾃分に適したものを参考にしていただければ
    Shota Imai | The University of Tokyo
    36

    View Slide

  37. プロンプトのデータセット 1/2
    n OpenAI AIの利⽤者が実際に使ったプロンプトから構成される
    ※OpenAI APIの利⽤には「利⽤者のデータが学習に使われること」に賛同する必要がある
    n 加えて,InstructGPTの学習の評価に参加する⼈(labeler)にもいくつかのプロンプトを
    書いてもらう
    n Plain:任意のテキスト
    n Few-shot:ある指⽰とそれに対する複数のクエリ,回答
    n User-based:OpenAI APIの利⽤に記載されている利⽤例に沿った内容
    Shota Imai | The University of Tokyo
    37

    View Slide

  38. プロンプトのデータセット 2/2
    n 3種類のプロンプトに分ける
    - SFTデータセット:プロンプトをモデルに与えて,その出⼒に対してLabelerが正しい回答を
    教師データとして与える時に使う(1万3000データ, labelerデータ含む)
    - RMデータセット:Reward Modelの学習の際に,同じプロンプトを複数回モデルに与え,複
    数回答をlabelerがランク付けする時に使う(3万3000データ, labelerデータ含む)
    - PPOデータセット:PPOを使った強化学習の際の⼊⼒(状態)として使う(3万1000データ,
    APIの利⽤者データのみ)
    n プロンプトデータの96%は英語
    Shota Imai | The University of Tokyo
    38

    View Slide

  39. プロンプトの例
    Shota Imai | The University of Tokyo
    39

    View Slide

  40. Labeler
    n できるだけユーザーが書きそうなプロンプトを想定して書くよう指⽰
    n 明らかに意味が通らなかったり,意味があいまいなプロンプトは避ける
    n 有害な出⼒を誘導するものは避ける
    n UpworkとScaleAIを通じて,40⼈を雇った
    n 潜在的に有害な出⼒を識別するのが得意な⼈たちで,スクリーニングで選別
    Shota Imai | The University of Tokyo
    40

    View Slide

  41. InstructGPTの評価
    n InstructGPTが「アライメント」により,⼈間にとって好ましい⾔語出⼒をできているか
    評価
    n ベースライン
    - GPT-3:オリジナルのGPT-3のモデル
    - SFT:SGPT-3にFTのみを⾏い,強化学習をしていないモデル
    - PPO:PPOで強化学習するが,⼀般的なデータセットへの勾配を考慮していないモデル
    - PPO-ptx:⼀般的なデータセットへの勾配も考慮して強化学習したモデル.InstructGPT
    n 評価の種類
    1. Evaluations on API distribution
    • 学習に使⽤しなかった,OpenAPIの利⽤者のプロンプトを⼊⼒にして,その出⼒を評価
    • 175BのSFTモデルをベースモデルにし,⼈間から⾒た出⼒の好ましさがこのベースモデルを上回る割
    合=Win rateを評価指標にする
    • 暴⼒的な内容,有害な指摘,偏った意⾒の表明,倫理に対する判定などのメタデータをもとにする
    評価も
    2. Evaluations on public NLP datasets
    • InstructGPT以外の⼀般的な⾔語タスクで⽤いられるNLPのデータセットを使う評価
    Shota Imai | The University of Tokyo
    41

    View Slide

  42. メタデータによる評価
    n 全体的な質,暴⼒的な内容,有害な指摘,偏った意⾒の表明,倫理に対する判定など,
    いくつかの項⽬を考慮して,モデルの出⼒の質を判定する
    Shota Imai | The University of Tokyo
    42

    View Slide

  43. 実験結果 / API distribution
    各モデルのパラメータ数とWin rate
    n ベースモデル(175BのSFTモデル)の出⼒と,評価対象のモデルの出⼒を⽐較して,⼈
    間のlabelerが「好ましい」と判断した割合のWin rateが指標
    n パラメータ数の多さよりも,強化学習を⾏なったかどうかが圧倒的に効いている
    - 1.3BのPPOモデルが,その100倍以上のパラメータを持つ175BのGPTモデルに勝る
    Heldout workers:学習に関わらなかったlabeler
    Training workers:学習に関わったlabeler
    Shota Imai | The University of Tokyo
    43

    View Slide

  44. 実験結果 / API distribution
    メタデータをもとにした評価
    n 強化学習を⾏なったモデルの⽅が,よりプロンプトの指⽰を忠実に守り,適切な出⼒を
    している
    n GPTモデルは,勝⼿に新しい情報をでっちあげて出⼒に混ぜる傾向がある
    ※Hallucinations:要約のような閉じたタスクで,勝⼿に新しい情報を作り上げること
    Shota Imai | The University of Tokyo
    44

    View Slide

  45. 実験結果 /public NLP datasets
    TruthfulQA dataset
    n TruthfulQA dataset:38のカテゴリにまたがる817の質問から構成され,確定した事実が
    存在するが,誤った信念や誤解によって誤答するようなデータセット
    n PPOのモデルは多少の改善を⾒せている
    Shota Imai | The University of Tokyo
    45
    データセットの例と,
    GPT-3の間違えた解答例

    View Slide

  46. 実験結果 /public NLP datasets
    RealToxicityPrompts
    n RealToxicityPrompts:英語のwebのコーパスから集められた,とくに有害性のない⽂章
    の⼀部分と,有害性を判定するスコアのペアからなるデータセット.この有害性のない
    ⽂章に続いて,有害な⽂を⽣成してしまうかどうかをみる
    n Respectfulな指⽰をプロンプトとして与えた場合と
    そうでない場合も⽐較
    n 出⼒⽂の有害性の判定は,⼈間によるものと,
    PerspectiveAPIに投げた場合のスコアを使⽤
    Shota Imai | The University of Tokyo
    46
    データセットに含まれる⽂の例.
    この⽂⾃体は全く無害

    View Slide

  47. 定性評価 1/2
    n 強化学習中にほぼ登場しない⾔語に対して
    も⾼い性能を⽰す
    - 学習データの90%以上が英語であるにも関
    わらず,それ以外の⾔語(プログラミング
    ⾔語含む)に関するタスクも明らかに質が
    向上している
    - GPT-3は,英語以外の指⽰⽂の内容を無視
    する傾向がある
    Shota Imai | The University of Tokyo
    47

    View Slide

  48. 定性評価 1/2 出⼒例
    「フランス語で、古代ギリシャにタイムスリップしたカエルの短編⼩説を書く。」という
    フランス語のプロンプトに対するGPT-3とInstructGPTの出⼒
    プロンプト:Écrivez une courte histoire sur une grenouille qui voyage dans le temps
    jusquʼà la Grèce antique en français.
    n GPT-3の出⼒(⽇本語訳)
    “神々の遊びのすべてを知りたいと願う⼦供が、神々の物語の中に⾃分⾃⾝を⾒出すという物語を書
    いてください。遠い時代に不倫していた⻘年が、その時代の少⼥と不倫する話を書いてください。学
    校に通うことになった⼦供が、想像上の友達を持ち、その友達のおかげで過去に戻ることができると
    いう話を書いてください”
    n InstructGPTの出⼒(⽇本語訳)
    “カエルは道に迷い、疲れ果ててしまった。彼の⽬的はただ⼀つ、過去にさかのぼって古代ギリシャ
    にたどり着くことだった。最初の問題は、移動⼿段を⾒つけることだった。タイムマシンに⾶び乗る
    のも⼀つの⼿だと聞いていた。⾶び込んでみると、そこは過去、⽢く妖しい匂いのする星降る夜だっ
    た。そしてカエルは、坂道の多い古都の街路や⼩さな宿屋を、素早く冒険的な⾜取りで移動する。
    [...]”
    n GPT-3 は明らかに関係がなく,しかも有害な内容の出⼒をしているが,InstructCPTの⽅はお題に
    沿った内容
    Shota Imai | The University of Tokyo
    48

    View Slide

  49. 定性評価 2/2
    n いまだに簡単なミスはしてしまう
    - 誤った前提に基づく指⽰を与えると,その
    誤った内容をそのまま受け⼊れて出⼒して
    しまう
    - 簡単な質問に対して,無駄に⻑い回答を出
    ⼒してしまう.答えが明らかな場合でも,
    ⻑々と考慮する必要がない可能性も答えて
    しまう
    - 複数の制約条件があると,性能が低下する
    (例:1930年にフランスで作られた映画
    を10個挙げよ)
    Shota Imai | The University of Tokyo
    49

    View Slide

  50. 定性評価 2/2 出⼒例1
    誤った前提に基づくプロンプトを与えた場合
    Why is it important to eat socks after meditating?(なぜ瞑想後に靴下を⾷べることが重要なのですか?)
    ※当然,瞑想後に靴下を⾷べるという常識は存在しない
    n GPT-3の出⼒
    “靴下から何を学ぶことができますか?
    A: 靴下を⾷べるということは、悟りのエッセンスを味わうということです。
    悟りのエッセンスを味わっているのです。あなたは、覚醒した⼼の本当の味を
    覚醒したマインドの本当の味を味わっているのです。
    Q: ⽬覚めた⼼の本当の味とは何でしょう?
    本当の味とは何ですか?
    A:覚醒した⼼の本当の味は
    味のない味です。そして、無味の本当の味は
    無味の味とは、⾜の臭いの味である。”
    n InstructGPTの出⼒
    “この質問に対する明確な答えはありませんが、瞑想の後に靴下を⾷べる必要があることを説明する理論はたくさんあります。靴
    下を⾷べるという⾏為は、瞑想の結果、脳が変容した状態から抜け出すのを助けると考える専⾨家もいれば、瞑想のような⾁体的
    にも精神的にも難しい活動に従事した後の⾝体への燃料補給と関係があると指摘する専⾨家もいます。また、靴下を⾷べることで、
    瞑想者に新しい感覚を与えたり、普段の思考プロセスや⽇常から脱却して、物理的、物質的な世界とつながることができるのでは
    ないかという説もあります。しかし、これらの説を裏付ける確固たる科学的根拠は今のところなく、靴下を⾷べることがなぜ重要
    なのかは、最終的には各個⼈の経験や考えに基づいて決定されることでしょう。”
    Shota Imai | The University of Tokyo
    50

    View Slide

  51. 定性評価 2/2出⼒例2
    答えが明らかな簡単な質問を与えた場合
    What happens if you fire a cannonball directly at a pumpkin at high speeds?
    (カボチャに直接砲弾を⾼速で発射したらどうなるのか?)
    n GPT-3の出⼒
    “かぼちゃが砲弾を引き寄せ、砲弾はかぼちゃに跳ね返されます。かぼちゃは、⾦属を操ることができるほど、強
    い磁⽯です。”
    n InstructGPTの出⼒
    “かぼちゃに直接、⾼速で砲弾を当てるとどうなるかは、予測できない要素が多すぎて正確な予測はできません。
    砲弾の⼤きさ、重さ、密度、かぼちゃの材質、砲弾の速度と衝撃⼒、砲弾とかぼちゃがぶつかる瞬間の距離など
    が考えられます。その結果、かぼちゃが割れる、地⾯に叩きつけられる、かぼちゃにひびが⼊る、完全に消滅す
    る、などの可能性があります。”
    Shota Imai | The University of Tokyo
    51

    View Slide

  52. InstructGPTの研究から得られた⽰唆
    1. 強化学習によりモデルのアライメントを⾼めるためのコストは、事前学習と⽐較して
    お⼿軽
    - 計算コストは,175BのSFTモデルが4.9 petaflops/s-days,175BのPPO-ptxモデルが60
    petaflops/s-days,であり,GPT-3の3,640 petaflops/s-daysと⽐べると圧倒的に少ない
    - OpenAI APIを使うようなユーザーに対して良い出⼒をするモデルを学習するなら,強化学習
    によるRLHFの⽅が,パラメータ数を増やすよりも圧倒的に効率が良い
    2. InstructGPTは,英語でない指⽰⽂に対しても汎化する
    - なぜここまで汎化するのかはもっと研究が必要だが,好ましい現象
    3. InstructGPTに⽤いられた⼿法で,アライメントによる性能低下を防ぐことができる
    - アライメントを追求すると,⼀部のタスクの性能が落ちる(alignment tax)が⾔われてきた
    が,InstructGPTで導⼊された強化学習の⼿法はlow-tax alignmentな⼿法といえる
    4. アライメント⼿法を実世界での利⽤データに基づいて検証するのがよい
    - 実は今までアライメントの⼿法は抽象的な理論的な内容に偏っていた
    - OpenAIのInstructGPTはユーザーの利⽤データから⾏われた研究
    Shota Imai | The University of Tokyo
    52

    View Slide

  53. 誰に対するアライメントか
    n InstructGPTで導⼊された⼿法は,⾔語モデルにより⼈間の好みにあった出⼒を⾏うよう
    学習する⼿法だが,⼈間が介⼊する以上は,学習中に介⼊する⼀部の⼈間の嗜好の影響
    を受けてしまう
    n 例えばInstructGPTにおけるlabelerは,UpworkやScale AIを通じて採⽤した⽶国や東南
    アジアに住む英語を話す⼈であり,研究中のモデルはこれらの⼈に共通する嗜好に偏っ
    ていたかもしれない
    n InstructGPTに使うデータは,実際にユーザーが使ったプロンプトではあるが,そもそも
    これらのユーザーが”GPTを使うのが有益である”と判断したトピックに偏ったデータに
    なっているかもしれない
    n OpenAI APIのユーザーは待機リストに登録された⼈から選ばれているが,実際には待機
    リストの前半はOpenAIの職員であり,OpenAI周辺のコミュニティに偏った出⼒をして
    いるかもしれない
    Shota Imai | The University of Tokyo
    53

    View Slide

  54. 参考資料 1/2
    n ChatGPTの技術
    - ChatGPT: Optimizing Language Models for Dialogue. https://openai.com/blog/chatgpt/
    - Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini
    Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda
    Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe. Training language models to follow instructions
    with human feedback. Preprint, 2022.(InstructGPT)
    - Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P. (2020).
    Learning to summarize from human feedback. arXiv preprint arXiv:2009.01325.
    n ⼤規模⾔語モデル・基盤モデル
    - Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A.,
    Brunskill, E., & et al. (2021). On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258
    - Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell,
    A., et al. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.
    - Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. d. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G.,
    et al. (2021). Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
    Shota Imai | The University of Tokyo
    54

    View Slide

  55. 参考資料 2/2
    n ⾃然⾔語処理,Transformer
    - IT Text ⾃然⾔語処理の基礎.岡﨑 直観, 荒瀬 由紀, 鈴⽊ 潤, 鶴岡 慶雅, 宮尾 祐介.オーム社.
    2022.
    • ⾃然⾔語処理やTransformer,Attention,⾔語モデルについてもっと詳しく知りたい⼈向け
    - 深層学習(第2版,機械学習プロフェッショナルシリーズ).岡⾕貴之.講談社.2022
    • AttentionやTransformerの他,深層学習の技術全体を知りたい⼈向け
    - 第6回 統計・機械学習若⼿シンポジウム チュートリアル講演 Vision and Languageと
    Transformers.品川政太朗. https://speakerdeck.com/sei88888/2022-dot-2-11-di-6hui-
    tong-ji-ji-jie-xue-xi-ruo-shou-sinpoziumu-tiyutoriarujiang-yan-vision-and-
    languagetotransformers
    • Transformerに関連する最近の技術動向.強化学習×⾔語⽣成モデルの解説も詳しい
    n 強化学習
    - 強化学習の基礎と深層強化学習.今井翔太.https://t.co/cWVyBvvi0u
    • 東⼤の強化学習講義で今井が使った資料.強化学習と,特に深層強化学習を知りたい⼈向け
    - 強化学習(第2版).R. Sutton, A. Barto. オーム社.2022
    • 強化学習の世界で最も有名で内容が充実した教科書.先⽉,我々が翻訳した⽇本語訳版が出版されました.
    - 強化学習(機械学習プロフェッショナルシリーズ).森村哲郎.講談社.2019.
    • 強化学習の和書の中では最も理論に詳しい教科書.⽅策勾配法関連の理論はこれで
    Shota Imai | The University of Tokyo
    55

    View Slide