Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ChatGPT 人間のフィードバックから強化学習した対話AI

ChatGPT 人間のフィードバックから強化学習した対話AI

東京大学の研究室内で,今井がChatGPTの知見を共有するために使用したスライド資料です.
特に以下のような話題,技術について解説しています.
・ChatGPTの凄さ
・ChatGPTの技術
・言語モデル
・プロンプト
・GPTとは
・InstructGPT
・言語モデルと強化学習
・RLFH

Transcript

  1. ChatGPTでできること ⾔語を使う,⾔語で完結するものであればほとんどなんでもできる n 質問回答 - ⼤体の質問には回答してくれ,それなりに事実に基づき,提⽰される情報も豊富 - ただし,確定した事実や数字・論理に関わることは苦⼿ n ⽂章校正

    - ⽇本語の⽂に対して「以下の⽂章を丁寧にしてください」といった使い⽅や,英⽂校正みたいに正 しい英語に書き直してくれる n ⽂章要約 - かなりの⻑⽂でも要点を抑えて要約できる - 論⽂や書籍も記憶しているようで,タイトルを投げたらそのまま要約も返してくれる n プログラミングコードの⽣成 - そのままコピペして実⾏可能なコードを⽣成してくれる - コピペだけで Webサービスや,ゲームを作れるレベルのコードの⽣成が可能 - エラーが出た場合は,それを⼊⼒すると,エラーを回避するようなプログラムを提案してくれる n 提案 - 「〜を書いてみてください」,「~提案してください」とすることで,まだ存在しない未知の物事 や計画などを書いてくれる その他⾊々 Shota Imai | The University of Tokyo 7
  2. ChatGPTの技術 / 概要 n 基本的には,GPT-3に対して強化学習(RLHF; Reinforcement Learning from Human Feedback)を⾏なったInstructGPTをベースにしていると考えられる

    n InstructGPTで学習されたモデルは「GPT-3.5」シリーズと呼ばれ,2022年初頭に学習さ れたこのシリーズのモデルに微調整を加えたのがChatGPT n InstructGPTの論⽂が公開されてから相当な⽇数が経過していることを考えると,実際に はInstructGPTをベースに相当な試⾏錯誤があったと考えられ,論⽂に書いてある実装・ ⼿法とは異なる点も多そう n 学習のインフラにはAzureを使⽤ ※GPT-3公開後にMicrosoftは独占ライセンスを取得するなどして提携している n ChatGPTはGPTの出⼒に,ModerationAPIによるフィルタをかけたものを最終的な出⼒ にしている Shota Imai | The University of Tokyo 9
  3. ChatGPTのコア技術 / InstructGPT n ChatGPTのコアとなっている技術と考えられ,GPT-3に対して⼈間のフィードバックに もとづく強化学習(RLHF; Reinforcement Learning from Human

    Feedback)を⾏ なったモデル - Training language models to follow instructions with human feedback - https://arxiv.org/abs/2203.02155 n 本資料で詳しく解説 Shota Imai | The University of Tokyo 10
  4. ChatGPTの技術 / ModerationAPI n GPTの出⼒に有害なコンテンツが含まれているかを評価し,アプリケーションにおける 有害な動作を防ぐ n OpenAI APIのユーザも使⽤可能 n

    テクニカルペーパーも公開されている - A Holistic Approach to Undesired Content Detection in the Real World - https://arxiv.org/abs/2208.03274 Shota Imai | The University of Tokyo 11
  5. 補⾜ / OpenAIのGPTシリーズのモデルと利⽤形態あれこれ n OpenAIはいくつかのGPTの学習されたモデル,APIを運⽤している - これらのモデルはパラメータ数や学習⽅法の点で同じGPT-〇でも差分がある - 例えば単に「GPT-3」と⾔った場合,それが指す学習済みモデルは複数存在する (GPT-3

    6.7B, GPT-3 2.7B, GPT-3 175Bなど) - それらのモデルに対して,異なるAPIが割り当てられている n 現在の最新モデルは,GPT-3 (or Codex)ベースのモデルに対して強化学習を⾏なった InstructGPTのモデルで,text-davinci-002, text-davinci-003等のモデルとAPIが公開さ れている n 特に以下のモデルはGPT-3.5シリーズと呼ばれ,ChatGPTもこのモデルを元にしている - code-davinci-002 - text-davinci-002 - text-davinci-003 Shota Imai | The University of Tokyo 12
  6. GPTとは? n GPTは「Generative Pre-trained Transformer」の略で,OpenAIが開発している Transformerベースの⼤規模な事前学習済み⾔語モデルを指す n 初代GPTからGPT-2,CPT-3までの研究論⽂が公開されており,WebGPTなどの亜種も 存在 n

    実際にユーザーがGPTに対して⽣成を指⽰できるOpenAI APIや指⽰⽂に応じて プログラミングコードを⽣成するCodeX Copilotなどのサービス提供もある n モデルのサイズが⾮常に⼤きい(GPT-3で1750億)ことと,GPT以前の⾔語⽣成AIと⽐ べて圧倒的に性能が⾼いことが特徴で,シリーズが公開される度に話題に Shota Imai | The University of Tokyo 15
  7. Transformer Attention Is All You Need n 現在のAI・機械学習において最も利⽤されている・注⽬されている・性能を発揮してい る深層学習のアーキテクチャであり,self-attentionがコア技術 n

    もともとは,機械翻訳を⾏う⼿法として提案されたが,現在では翻訳にとどまらず,画 像認識,強化学習などなど深層学習を使うほとんどのタスクで圧倒的な性能を発揮 n あまりにも有名なモデルゆえに⼤量の解説記事・書籍が存在するため,詳細はそちらを 参照 Shota Imai | The University of Tokyo 17
  8. ⾔語モデル(Language Model) n 単語や⽂章が⽣成される確率をモデル化したもの n 例えば,以下のような⽂の⽳埋め問題で,「このりんごはとても」までを⼊⼒して,次 の( )にはいる単語の確率を出⼒し,最も⾼い確率の単語を割り当てる ⽂:このりんごはとても( )

    (1) おいしい 0.8 (2) 寂しい 0.1 (3) です 0.05 (4) ペン 0.05 →「おいしい」を出⼒ n 近年はTransformerをベースにした⾔語モデルがほとんどで,特に⼤規模なTransformerを 使⽤したものを⼤規模⾔語モデル(LLM; Large Language Models),⼤量の⾔語データ で学習したものを事前学習モデル(⼤規模事前学習⾔語モデル)と呼ぶ Shota Imai | The University of Tokyo 18
  9. GPT Improving Language Understanding by Generative Pre-Training n Transformerのデコーダをベースにラベルなしの事前学習を⾏い,タスクに応じた少数の ラベル付きファインチューニングを⾏なって,さまざまなタスクで性能を評価した

    n GPTは少数のラベル付きデータのファインチューニングのみで,常識推論,質問応答 などのタスクで,各タスクに特化したモデルを超える性能を達成 n パラメータ数は170m(1億1700万) Shota Imai | The University of Tokyo 20
  10. GPT-2 Language Models are Unsupervised Multitask Learners n GPTのモデルはほとんど変更せず,パラメータ数が⼤きいモデルに⼤規模な事前学習 のみを⾏なって,特定タスクにおけるラベル付きの学習は⾏わなずzero-shot,

    の設定で 性能が出るようにしたモデル - zero-shot:例を⼀歳与えずに新しいタスクを解かせる n パラメータ数は15億 Shota Imai | The University of Tokyo 21 zero-shotの例
  11. GPT-3 Language Models are Few-Shot Learners n GPT-2のアーキテクチャはほぼそのままに,モデルのパラメータ数を175B(1750億)に した超⼤規模⾔語モデル n

    GPTシリーズが本格的に「ヤバい」と思われたのはGPT-3からで,⼤規模モデルの性能 に関する本格的な議論が始まった元祖 n パラメータ数を極限まで増やしたことで,突如できるようになるタスクが存在する, 振る舞いが明らかに変わるなどの現象が確認された 22
  12. CodeX, Copilot Evaluating Large Language Models Trained on Code n

    GPTのような⾔語モデルをプログラミングコードの⽣成に⽤いたモデル n GitHubから獲得したコードのデータセットでGPTのモデルをファインチューニングした パラメータ数120億のモデルを使⽤ n 最終的には77.5%の割合で評価のテストに通るモデルに Shota Imai | The University of Tokyo 23
  13. 基盤モデル(Foundation Model) n GPTシリーズなども含め,⼤規模な深層学習のモデルを膨⼤なデータで学習し,様々な 応⽤の基盤(Foundation)にできるモデルの総称で,スタンフォード⼤学の研究者らの 論⽂“On the Opportunities and Risks

    of Foundation Models”で提唱された概念 n 現在までに,⾔語,画像,⾳声,⾏動,プログラムなど様々なモーダルを扱える基盤モ デルが登場し,AIの研究で特に注⽬され,産業応⽤が期待・すでに実⽤化 n 億を超える⼤量パラメータのモデルであることを特徴とし,学習には膨⼤なデータと 計算資源が要求される Shota Imai | The University of Tokyo 24 DALL・E,Imagen, StableDiffusion, Magic3D等 (⾔語→画像,⾔語→3Dモデル) CodeX (⾔語→コード) GPTシリーズ,PaLM,FLAN等 (⾔語→⾔語) whisper (⾳声→⾔語) Gato (⾔語,画像,⾏動→⾔語,画像,⾏動)
  14. ChatGPTに関連する⼿法・論⽂ n 基本的には,GPT-3をさらに⼈間の嗜好に合うように強化学習した InstructGPTをベースにしていると考えられる n 関連論⽂ - Learning to summarize

    from human feedback • ⼈間のフィードバックから報酬を⽣成するReward modelを学習し,⾔語モデル の強化学習に使う発想 - Training language models to follow instructions with human feedback • Reward modelによる⾔語モデルの強化学習を,GPT-3に対して本格的に実⾏し たInstructGPTに関する論⽂ Shota Imai | The University of Tokyo 26
  15. 従来のGPTの問題点 n データセットとして集めた⼤量のWebテキストデータ⾃体には,好ましくないテキスト も⼤量に含まれる - 暴⼒的,デマ,陰謀論,極端な政治的主張,倫理に反する内容…など n GPTのような⾔語モデルはデータをもとに,「もっともらしい」⾔語出⼒をするように 学習するだけなので,これらの問題を考慮・回避するようにはされていない n

    つまり,⼈間「らしい」⾔語の出⼒は可能だが,⼈間が「好ましい」出⼒をするように は学習されていない (例)「会社の上司との関係が悪いのですが,どうしたらいいですか?」という⽂章をGPTに⼊⼒し た場合のGPTの出⼒ 好ましくない出⼒ ・暴⼒的である,倫理に反する内容も含まれているが,⼈間 の⾔語としては⽂法も語彙も破綻しておらず正しい ・Webにはこのような⽂章も多量に含まれる まずはその上司を⼀発殴ってやりま しょう.暴⼒は全てを解決します. または,その上司が⾔うことをすべ て無視するのもいいかもしれません. 最終⼿段としては,その上司の秘密 情報を⼊⼿して・・・ GPT いくつかの選択肢があります. まずは,上司本⼈と時間をとって⼀対⼀で 話合うことが考えられます. 他に考えられるのは,その上司のさらに上 司にあたる⼈などに相談することです. 社内で尽くせる⼿段をとっても解決しない 場合,社外の相談機関に頼ることも考える べきです. GPT 好ましい出⼒ ・暴⼒的な内容,倫理に反する内容を含まず,⽂法,語彙も正しい ・解決策が⼀つではないことを⽰し,⼈間に最終的な判断を委ねる
  16. GPTが⼈間にとって「好ましい」出⼒をするにはどうすべきか 1. Webからテキストを適当に集めて学習するのではなく,⼈間の⽅で,⼊⼒と答えてほし い⽂章のセットを⽤意して学習させる → 教師あり学習(Supervised Fine-Tuning ) 2. 適当に⼊⼒したデータへのGPTの出⼒に対して,好ましさに関するなんらかの「フィー

    ドバック」(例えば,1~10点の間で点数づけをする)を与えて学習 →⼈間のフィードバックによる強化学習(RLHF; Reinforcement Learning from Human Feedback) n ChatGPTに先⾏して「InstructGPT」という技術で上記の要素を取り⼊れたGPTを実現 n ChatGPTはこのInstructGPTをさらに⼤規模に学習,調整したものと考えられる Shota Imai | The University of Tokyo 28
  17. ChatGPTのコア技術 InstructGPT n GPT-3などの⼤規模⾔語モデルは,かなりの精度でもっともらしい⽂章出⼒ができるよ うになったが,事実に反すること,有害なこと,ユーザにとって役に⽴たない⽂章を⽣ 成することも多かった →アライメント問題 n アライメント(Alignment):⾔語モデルに⼈間のユーザに沿った好ましい出⼒をさせ ること

    n ⼈間による出⼒の評価をもとに強化学習を⾏うRLHF(Reinforcement Learning from Human Feedback)で⾔語モデルのアラインメントを⾏うことにより,パラメータ数が 100倍以上のモデル(13億 vs. 1750億)よりも, - ⼈間視点で「よい」出⼒に - パラメータが少ないことによる全体的な性能低下は最⼩限 - 事実の出⼒が多く,有害な出⼒が少なく n アライメントを⾏うことにより,⼀部のタスクへの性能が下がってしまう問題 (Alignment tax; アライメントの税)も最⼩限 Shota Imai | The University of Tokyo 29
  18. InstructGPTの特徴 n GPT-3などと⽐べて,より⼈間視点で好ましい出⼒を⾏う n GPT-3などと⽐べて,より事実に基づく出⼒を⾏う n GPT-3などと⽐べて,有害な出⼒が減少した n アライメントの結果,有名な⾔語処理タスクの⼀部に対して性能が低下した(alignment tax;

    アライメントの税)ものの,その影響は最⼩限 n RLHFで出現しないような指⽰⽂に対しても⾼い汎化性能 n 確定した事実に関する間違い(e.g. 都道府県の⾯積,⼈名など),簡単な質問に対する 無駄に⻑い回答,誤った前提の質問(e.g. 靴下の⾎液は何⾊ですか?)をそうだと検知 できないなど,まだ⽋点がある Shota Imai | The University of Tokyo 30
  19. InstructGPTの性能 n GPT :1750億パラメータを持つ通常のGPT-3 n GPT-prompted:GPT-3に有益なプロンプトを与えたモデル n PPO-ptx:InstructGPT 横軸:モデルのパラメータ数 縦軸:出⼒を175Bのモデルの出⼒と⽐較して,

    ⼈間が「こちらの⽅が良い」と評価した⽐率 パラメータが⾮常に⼩さい1.3Bの時点で, 175Bのモデルよりも強化学習を⾏なったPPO-ptxの⽅が⾼い性能を出している Shota Imai | The University of Tokyo 31
  20. InstructGPTの学習概要 n Step1 - プロンプトのデータを学習するモデルに出⼒させ,そ のプロンプトに対する⼈間のlabelerの回答を元に教師 あり学習 n Step2 -

    あるプロンプトに対する出⼒を複数集め,その出⼒に 関する「好ましさ」を,⼈間のlabelerがランク付けす る - その後の,そのランク付きデータをもとに,後の強化 学習における報酬を⽣成するReward model(RM)を 学習 n Step3 - あるプロンプトに対するGPTモデルの出⼒に対して, Reward Modelが報酬を⽣成し,PPOによる強化学習 を⾏う n Step3の完了後,強化学習した新しいGPTモデルを 使ってStep2~3を⾏う〜という⼿順を繰り返す n この⼿順で学習するベースのモデルは,今まで運⽤ していたGPT-3の学習済みモデル Shota Imai | The University of Tokyo 32
  21. Supervised Fine-Tuning (SFT) n プロンプトデータの⼊⼒に対する出⼒を,labelerによる回答をもとに教師あり学習 n 学習は16エポック n 学習率はcosine learning

    rate decayで調整 n residual dropout of 0.2 n 最終的なモデルの選定は後述のRMをベースに選ぶ n エポックの初期は過学習していたが,エポックの進⾏とともにRM scoreや⼈間の嗜好に あった出⼒をするように Shota Imai | The University of Tokyo 33
  22. Reward Model(RM) n Labelerがプロンプトの出⼒に対してランク付を⾏い,そのランク付きデータから学習 n 学習に使⽤するモデルは,GPT-3のSFTで学習を⾏なったモデルのうち,パラメータ数 6B(60億)のモデルの最終層のレイヤを除いて,報酬のスカラー値を⼀つ出⼒するよう にしたもの - 175BのRMは不安定で機能しなかったとのこと

    - この6BのRMを,全てのInstructGPTの学習に使⽤ n labelerは,あるプロンプトに対する出⼒をSFTを⾏なったモデルから複数得て,それを K=4からK=9の間でランク付する n RMはプロンプト𝑥に対する出⼒yを⼊⼒として,報酬を出⼒するモデル𝑟!(𝑥, 𝑦)と書ける n RMは,出⼒の⽐較を利⽤して以下の損失関数で学習される - 𝑦! はより好ましいランクの出⼒,𝑦" は 𝑦! と⽐較してランクが低い出⼒ - ある1つのプロンプト𝑥に対し,ランク付けされた出⼒K個が存在するため,組み合わせの数は # 𝐶$ 個存在 する(ランク数が4個なら % 𝐶$ =6個) - σはシグモイド間数 - この損失の最⼩化により, 𝑟& (𝑥, 𝑦)はあるプロンプトに関して⼈間が好ましい出⼒により⾼い報酬を出す ようになる Shota Imai | The University of Tokyo 34
  23. 強化学習 n ここまでで得たSFTのGPTモデルとRMを⽤いて強化学習を⾏う n 強化学習のアルゴリズムとしてはPPO(Proximal Policy Optimization)を使⽤ n ここでの環境は,⼀つのプロンプトを⼀つの状態とみなすバンディット型の環境とみな せる

    n プロンプトxに対するモデルの出⼒𝜋"#$(y | x)に対して,⼊⼒xと出⼒yに対するRMに よる報酬の出⼒𝑟! (𝑥, 𝑦)を使う - ⼈間の好みを反映したRMがGPTモデルの出⼒の良さを報酬として評価するため,報酬を最⼤ 化する強化学習によって学習されたモデルは,良い報酬を得る=⼈間に取って好ましい出⼒を するように改善される n 強化学習の⽬的関数を以下にしたものが,PPT-ptxとして⾔及されているInstructGPTの モデル - 𝜋!"#はSFTを⾏なった直後のモデルの出⼒, 𝜋$%が最適化を⾏うGPTモデルのRL⽅策 - ⼀般的なNLPデータセットへの性能低下を防ぐため,それらのデータへの勾配も加えている Shota Imai | The University of Tokyo 35
  24. 補⾜ / PPO n 強化学習における⽅策勾配法の⼀つTRPOを,より実装を単純にし,強⼒にしたもの - TRPO(Trust Region Policy Optimization):⽅策勾配において適切な勾配の更新幅を保証

    n 更新前の⽅策と新しい⽅策の確率密度⽐が,ある値1 − 𝜖, 1 + 𝜖の範囲に収まるよう制約 をかけて学習 n 強化学習,⽅策勾配法などの話は⻑くなりすぎるので,資料末の「参考資料」の中から ⾃分に適したものを参考にしていただければ Shota Imai | The University of Tokyo 36
  25. プロンプトのデータセット 2/2 n 3種類のプロンプトに分ける - SFTデータセット:プロンプトをモデルに与えて,その出⼒に対してLabelerが正しい回答を 教師データとして与える時に使う(1万3000データ, labelerデータ含む) - RMデータセット:Reward

    Modelの学習の際に,同じプロンプトを複数回モデルに与え,複 数回答をlabelerがランク付けする時に使う(3万3000データ, labelerデータ含む) - PPOデータセット:PPOを使った強化学習の際の⼊⼒(状態)として使う(3万1000データ, APIの利⽤者データのみ) n プロンプトデータの96%は英語 Shota Imai | The University of Tokyo 38
  26. InstructGPTの評価 n InstructGPTが「アライメント」により,⼈間にとって好ましい⾔語出⼒をできているか 評価 n ベースライン - GPT-3:オリジナルのGPT-3のモデル - SFT:SGPT-3にFTのみを⾏い,強化学習をしていないモデル

    - PPO:PPOで強化学習するが,⼀般的なデータセットへの勾配を考慮していないモデル - PPO-ptx:⼀般的なデータセットへの勾配も考慮して強化学習したモデル.InstructGPT n 評価の種類 1. Evaluations on API distribution • 学習に使⽤しなかった,OpenAPIの利⽤者のプロンプトを⼊⼒にして,その出⼒を評価 • 175BのSFTモデルをベースモデルにし,⼈間から⾒た出⼒の好ましさがこのベースモデルを上回る割 合=Win rateを評価指標にする • 暴⼒的な内容,有害な指摘,偏った意⾒の表明,倫理に対する判定などのメタデータをもとにする 評価も 2. Evaluations on public NLP datasets • InstructGPT以外の⼀般的な⾔語タスクで⽤いられるNLPのデータセットを使う評価 Shota Imai | The University of Tokyo 41
  27. 実験結果 / API distribution 各モデルのパラメータ数とWin rate n ベースモデル(175BのSFTモデル)の出⼒と,評価対象のモデルの出⼒を⽐較して,⼈ 間のlabelerが「好ましい」と判断した割合のWin rateが指標

    n パラメータ数の多さよりも,強化学習を⾏なったかどうかが圧倒的に効いている - 1.3BのPPOモデルが,その100倍以上のパラメータを持つ175BのGPTモデルに勝る Heldout workers:学習に関わらなかったlabeler Training workers:学習に関わったlabeler Shota Imai | The University of Tokyo 43
  28. 実験結果 /public NLP datasets RealToxicityPrompts n RealToxicityPrompts:英語のwebのコーパスから集められた,とくに有害性のない⽂章 の⼀部分と,有害性を判定するスコアのペアからなるデータセット.この有害性のない ⽂章に続いて,有害な⽂を⽣成してしまうかどうかをみる n

    Respectfulな指⽰をプロンプトとして与えた場合と そうでない場合も⽐較 n 出⼒⽂の有害性の判定は,⼈間によるものと, PerspectiveAPIに投げた場合のスコアを使⽤ Shota Imai | The University of Tokyo 46 データセットに含まれる⽂の例. この⽂⾃体は全く無害
  29. 定性評価 1/2 出⼒例 「フランス語で、古代ギリシャにタイムスリップしたカエルの短編⼩説を書く。」という フランス語のプロンプトに対するGPT-3とInstructGPTの出⼒ プロンプト:Écrivez une courte histoire sur

    une grenouille qui voyage dans le temps jusquʼà la Grèce antique en français. n GPT-3の出⼒(⽇本語訳) “神々の遊びのすべてを知りたいと願う⼦供が、神々の物語の中に⾃分⾃⾝を⾒出すという物語を書 いてください。遠い時代に不倫していた⻘年が、その時代の少⼥と不倫する話を書いてください。学 校に通うことになった⼦供が、想像上の友達を持ち、その友達のおかげで過去に戻ることができると いう話を書いてください” n InstructGPTの出⼒(⽇本語訳) “カエルは道に迷い、疲れ果ててしまった。彼の⽬的はただ⼀つ、過去にさかのぼって古代ギリシャ にたどり着くことだった。最初の問題は、移動⼿段を⾒つけることだった。タイムマシンに⾶び乗る のも⼀つの⼿だと聞いていた。⾶び込んでみると、そこは過去、⽢く妖しい匂いのする星降る夜だっ た。そしてカエルは、坂道の多い古都の街路や⼩さな宿屋を、素早く冒険的な⾜取りで移動する。 [...]” n GPT-3 は明らかに関係がなく,しかも有害な内容の出⼒をしているが,InstructCPTの⽅はお題に 沿った内容 Shota Imai | The University of Tokyo 48
  30. 定性評価 2/2 n いまだに簡単なミスはしてしまう - 誤った前提に基づく指⽰を与えると,その 誤った内容をそのまま受け⼊れて出⼒して しまう - 簡単な質問に対して,無駄に⻑い回答を出

    ⼒してしまう.答えが明らかな場合でも, ⻑々と考慮する必要がない可能性も答えて しまう - 複数の制約条件があると,性能が低下する (例:1930年にフランスで作られた映画 を10個挙げよ) Shota Imai | The University of Tokyo 49
  31. 定性評価 2/2 出⼒例1 誤った前提に基づくプロンプトを与えた場合 Why is it important to eat

    socks after meditating?(なぜ瞑想後に靴下を⾷べることが重要なのですか?) ※当然,瞑想後に靴下を⾷べるという常識は存在しない n GPT-3の出⼒ “靴下から何を学ぶことができますか? A: 靴下を⾷べるということは、悟りのエッセンスを味わうということです。 悟りのエッセンスを味わっているのです。あなたは、覚醒した⼼の本当の味を 覚醒したマインドの本当の味を味わっているのです。 Q: ⽬覚めた⼼の本当の味とは何でしょう? 本当の味とは何ですか? A:覚醒した⼼の本当の味は 味のない味です。そして、無味の本当の味は 無味の味とは、⾜の臭いの味である。” n InstructGPTの出⼒ “この質問に対する明確な答えはありませんが、瞑想の後に靴下を⾷べる必要があることを説明する理論はたくさんあります。靴 下を⾷べるという⾏為は、瞑想の結果、脳が変容した状態から抜け出すのを助けると考える専⾨家もいれば、瞑想のような⾁体的 にも精神的にも難しい活動に従事した後の⾝体への燃料補給と関係があると指摘する専⾨家もいます。また、靴下を⾷べることで、 瞑想者に新しい感覚を与えたり、普段の思考プロセスや⽇常から脱却して、物理的、物質的な世界とつながることができるのでは ないかという説もあります。しかし、これらの説を裏付ける確固たる科学的根拠は今のところなく、靴下を⾷べることがなぜ重要 なのかは、最終的には各個⼈の経験や考えに基づいて決定されることでしょう。” Shota Imai | The University of Tokyo 50
  32. 定性評価 2/2出⼒例2 答えが明らかな簡単な質問を与えた場合 What happens if you fire a cannonball

    directly at a pumpkin at high speeds? (カボチャに直接砲弾を⾼速で発射したらどうなるのか?) n GPT-3の出⼒ “かぼちゃが砲弾を引き寄せ、砲弾はかぼちゃに跳ね返されます。かぼちゃは、⾦属を操ることができるほど、強 い磁⽯です。” n InstructGPTの出⼒ “かぼちゃに直接、⾼速で砲弾を当てるとどうなるかは、予測できない要素が多すぎて正確な予測はできません。 砲弾の⼤きさ、重さ、密度、かぼちゃの材質、砲弾の速度と衝撃⼒、砲弾とかぼちゃがぶつかる瞬間の距離など が考えられます。その結果、かぼちゃが割れる、地⾯に叩きつけられる、かぼちゃにひびが⼊る、完全に消滅す る、などの可能性があります。” Shota Imai | The University of Tokyo 51
  33. InstructGPTの研究から得られた⽰唆 1. 強化学習によりモデルのアライメントを⾼めるためのコストは、事前学習と⽐較して お⼿軽 - 計算コストは,175BのSFTモデルが4.9 petaflops/s-days,175BのPPO-ptxモデルが60 petaflops/s-days,であり,GPT-3の3,640 petaflops/s-daysと⽐べると圧倒的に少ない -

    OpenAI APIを使うようなユーザーに対して良い出⼒をするモデルを学習するなら,強化学習 によるRLHFの⽅が,パラメータ数を増やすよりも圧倒的に効率が良い 2. InstructGPTは,英語でない指⽰⽂に対しても汎化する - なぜここまで汎化するのかはもっと研究が必要だが,好ましい現象 3. InstructGPTに⽤いられた⼿法で,アライメントによる性能低下を防ぐことができる - アライメントを追求すると,⼀部のタスクの性能が落ちる(alignment tax)が⾔われてきた が,InstructGPTで導⼊された強化学習の⼿法はlow-tax alignmentな⼿法といえる 4. アライメント⼿法を実世界での利⽤データに基づいて検証するのがよい - 実は今までアライメントの⼿法は抽象的な理論的な内容に偏っていた - OpenAIのInstructGPTはユーザーの利⽤データから⾏われた研究 Shota Imai | The University of Tokyo 52
  34. 誰に対するアライメントか n InstructGPTで導⼊された⼿法は,⾔語モデルにより⼈間の好みにあった出⼒を⾏うよう 学習する⼿法だが,⼈間が介⼊する以上は,学習中に介⼊する⼀部の⼈間の嗜好の影響 を受けてしまう n 例えばInstructGPTにおけるlabelerは,UpworkやScale AIを通じて採⽤した⽶国や東南 アジアに住む英語を話す⼈であり,研究中のモデルはこれらの⼈に共通する嗜好に偏っ ていたかもしれない

    n InstructGPTに使うデータは,実際にユーザーが使ったプロンプトではあるが,そもそも これらのユーザーが”GPTを使うのが有益である”と判断したトピックに偏ったデータに なっているかもしれない n OpenAI APIのユーザーは待機リストに登録された⼈から選ばれているが,実際には待機 リストの前半はOpenAIの職員であり,OpenAI周辺のコミュニティに偏った出⼒をして いるかもしれない Shota Imai | The University of Tokyo 53
  35. 参考資料 1/2 n ChatGPTの技術 - ChatGPT: Optimizing Language Models for

    Dialogue. https://openai.com/blog/chatgpt/ - Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe. Training language models to follow instructions with human feedback. Preprint, 2022.(InstructGPT) - Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P. (2020). Learning to summarize from human feedback. arXiv preprint arXiv:2009.01325. n ⼤規模⾔語モデル・基盤モデル - Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., & et al. (2021). On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258 - Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165. - Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. d. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., et al. (2021). Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374. Shota Imai | The University of Tokyo 54
  36. 参考資料 2/2 n ⾃然⾔語処理,Transformer - IT Text ⾃然⾔語処理の基礎.岡﨑 直観, 荒瀬

    由紀, 鈴⽊ 潤, 鶴岡 慶雅, 宮尾 祐介.オーム社. 2022. • ⾃然⾔語処理やTransformer,Attention,⾔語モデルについてもっと詳しく知りたい⼈向け - 深層学習(第2版,機械学習プロフェッショナルシリーズ).岡⾕貴之.講談社.2022 • AttentionやTransformerの他,深層学習の技術全体を知りたい⼈向け - 第6回 統計・機械学習若⼿シンポジウム チュートリアル講演 Vision and Languageと Transformers.品川政太朗. https://speakerdeck.com/sei88888/2022-dot-2-11-di-6hui- tong-ji-ji-jie-xue-xi-ruo-shou-sinpoziumu-tiyutoriarujiang-yan-vision-and- languagetotransformers • Transformerに関連する最近の技術動向.強化学習×⾔語⽣成モデルの解説も詳しい n 強化学習 - 強化学習の基礎と深層強化学習.今井翔太.https://t.co/cWVyBvvi0u • 東⼤の強化学習講義で今井が使った資料.強化学習と,特に深層強化学習を知りたい⼈向け - 強化学習(第2版).R. Sutton, A. Barto. オーム社.2022 • 強化学習の世界で最も有名で内容が充実した教科書.先⽉,我々が翻訳した⽇本語訳版が出版されました. - 強化学習(機械学習プロフェッショナルシリーズ).森村哲郎.講談社.2019. • 強化学習の和書の中では最も理論に詳しい教科書.⽅策勾配法関連の理論はこれで Shota Imai | The University of Tokyo 55