Upgrade to Pro — share decks privately, control downloads, hide ads and more …

GPT3.5以降に性能がアップした理由に関する理論ほか

 GPT3.5以降に性能がアップした理由に関する理論ほか

SoftBank Tech Night

July 28, 2023
Tweet

More Decks by SoftBank Tech Night

Other Decks in Technology

Transcript

  1. アジェンダ • ChatGPT(GPT3.5)登場以前の評価とその理由 • ロジック(論理)や数学の問題に弱いGPTモデル • GPT3.5以降~性能アップの2つのヒミツ • Scaling Laws

    • 強化学習の使用 • ReActとは? • Appendix ※GPTは、「Generative Pre-trained Transformer」の略で、 「Transformer」という深層学習モデルをベースとした大規模な事前学 習済み言語モデルのこと。 2
  2. ChatGPT 2か月で1憶ユーザー • ChatGPT 2022 年11 月に公開 • 5日後に100 万ユーザー、2か月で

    1憶ユーザーに到達。 • ユーザーの数の急拡大の理由は無 料で簡単に試せるWebサイトを公 開したことが理由。しかも、多言 語に対応。 • GPT3.5以降の性能アップにより、 「性能が良い/良くなった」とい う ”良い印象”を抱かせた • その”良い印象”を与えた性能アッ プの要因について、お話したいと 思います 3
  3. 辛口評価とその理由 GPTが簡単なロジック問題や数学問題に回答できない。 ということが論文等で指摘されてきました。 ▪GPT2に関して評価を行なった論文 The Next Decade in AI: Four

    Steps Towards Robust Artificial Intelligence arXiv : 2002.06177 リンク 本論文中に、前頁のフランソワ・ショレさんのコメントの引用があります。 『AI はその理想には達していない。特定のタスクでは非常に優れたパフォー マンスを発揮することができるが、依然として脆弱で、厳しい制限がある。学 習データや仮定から少しでも逸脱した状況を理解することができず、人間の研 究者の大きな関与なしに新しいタスクに対処することができない。』 5
  4. GPT3の出力例 6 【問題】 6 歳児に月面着陸について数文で説明してください。 【GPT-3の回答】 6 歳児に重力の理論を説明します。 6 歳児に相対性理論を数文で説明します。

    ビッグバン理論を 6 歳児に説明します。 6歳児に進化について説明します。 ※出展 OpneAI Aligning language models to follow instructions リンク 原文は英語ですが、日本語に翻訳しています。 他にもいろいろ、出力例の比較が公開されています。 面白いので、ぜひ見てみて下さい! GPT3の回答は、ほぼ理解不能。。 悲しいくらいな辛口評価の理由 も納得するしかない。 この回答がどう変わるか、楽し みにしていてください!
  5. 0 2000 4000 6000 8000 10000 12000 14000 16000 18000

    0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 パラメータ数の飛躍的な増加 GPT4 1.76 兆? GPT3.5 3,550 億 GPT3 1,750 億 GPT2 15億 9 GPT4については、2200 億パラメータを持つ8つ のモデル(計1.76兆)と の有力なリークがありま した(出展)。100兆以上 というウワサがありまし たが、このウワサは OpenAI CEOが公式に否 定しています(出展)。
  6. 強化学習(RLHF)の使用 GPT以降のヒストリーは、 GPT3➡InstructGPT➡GPT3.5➡ChatGPT➡GPT4 InstructGPTからは強化学習(RLHF:Reinforcement Learning with Human Feedback)を適用。 RLHFは、簡単に言うと、『人間の好みはこうだよ と教えてあ

    げて、人間が欲しい回答に近づける方法』 (人間の好みを報酬 とする手法) この手法は、アラインメントとも呼ぶ。 GPT3.5/ChatGPT/GPT4では、強化学習(RLHF)を適 用。強化学習はGPTのコア技術 11
  7. 強化学習(RLHF)の使用 ▪RLHFの研究論文 RLHF(reinforcement learning from human feedback)の論文は以下の2つで す。 RLHFは、元は別の目的(ロボットの学習等)で生み出された研究です。 ✓

    Deep reinforcement learning from human preferences 2017年 arxiv : 1706.03741 リンク ✓ Learning to summarize from human feedback 2020年 arxiv : 2009.01325 リンク ▪RLHFで使用されている強化学習アルゴリズムPPOの研究論文 ✓ Proximal Policy Optimization Algorithms 2017年 arXiv : 1707.06347 リンク ▪GPT3にRLHFを適用した研究論文※OpenAI社の研究 ✓ Training language models to follow instructions with human feedback 2022年 arXiv : 2203.02155 リンク ➡本日は、こちらの論文を説明します。 12
  8. RLHFの概要 Step3 Step3:方策の改善 強化学習アルゴリズムのPPO(Proximal Policy Optimization)を使用して、報酬が 最大となるよう方策(回答をどう生成するか決定するポリシー)を繰り返し更新し、方策 の改善を行います。 ➡結果として人(※)が期待する回答が生成されやすくなりま す。※具体的にはラベラーを指すが、ラベラーへの過剰適合を発生させずに性能を向上させる

    ことに成功したとのこと(論文P12) 報酬を得る。➡方 策(ポリシー)の更 新を繰り返す。※rk はエージェントがある時 刻kに環境から受け取る 報酬の大きさ PPOを使用 して報酬が 最大になる よう学習 報酬モデル で回答に対 する報酬を 計算 質問を提示。例)カエ ルについての物語を 書いて下さい 回答を生成。例) 昔々あるところに.. 繰り返す 15
  9. RLHFのまとめ RLHFは、『人間の好みはこうだよ と教えてあげて、人間が欲 しい回答に近づける方法』 (人間の好みを報酬とする手法) ✓Step1 教師あり学習によるpre-training➡人間が介入 ✓Step2 報酬モデルの作成➡人間が介入 ✓Step1

    PPOによる強化学習 今後は、『人間の好みをAIに教える』という事が普通になるかも。 16 Step1とStep2で人 間が介入(人間によ る教示データを使 用)ラベラーは全員 で40人で全て英語。
  10. RLHFの結果 18 【問題】 6 歳児に月面着陸について数文で説明してください。 【InstructGPTの回答】 人々は月に行き、見たものを写真に撮り、それを地球に送り返し、私 たち全員がそれを見ることができるようにしました。 【GPT3の回答】 6

    歳児に重力の理論を説明します。 6 歳児に相対性理論を数文で説明します。 ビッグバン理論を 6 歳児に説明します。 6歳児に進化について説明します。 ※出展 OpneAI Aligning language models to follow instructions リンク 原文は英語ですが、日本語に翻訳しています。 GPT3の回答は、ほ ぼ理解不能。。 まあまあちゃんとした回 答になりました!
  11. ロジック問題① 前述の論文(arXiv : 2002.06177)の中にある問題 【問題】 There are six frogs on

    a log. Two leave, but three join. The number of frogs on the log is now?(丸太の上に6匹のカエルがいます。 2匹は去るが、3 匹が加わる。 丸太に載っているカエルの数は今何匹ですか?) ※原文の英語で実行(日本語に翻訳しています) 【回答】 正解は7匹なのに、論文では17(seventeen)と誤答するという結果になってい たが。。 GPT3.5では7と正確に回答!ロジック問題の精度が上がってい る(かも) ※GPT2やGPT3が試せなかったので断定は避けます。 22
  12. そして、新発見かも!GPT3.5はえんぴつの存在を知って いた!そして、「あえて」無視! ChatGPTがどこを間違えたのか発見したり、ロジックが絡む問題の正答率を 上げたり、わかりやすく説明してもらう工夫として、「ステップバイステッ プ」のキーワードをつけて、指示を与える方法があります。最後に、「ス テップバイステップで考えて下さい」と指示を与えます。 25 【GPT3.5の回答】 ステップバイステップで考えていきましょう。 初めに、箱の中には靴が2足入っているということです。

    鉛筆を箱に入れましたが、この情報は問題の答えには 直接関係しませんので、一時的に無視します。靴を一 足取り除きました。したがって、箱の中には1足の靴が 残っています。したがって、箱の中には1足の靴が入っ ています。 間違えた理由が「鉛 筆を無視」した為と いうのがわかります。 このあと、「鉛筆を 無視しないで下さ い。」という指示を 追加することで GPT3.5でも正しく 回答できるようにな りました。
  13. GPTがカウントできない問題 試してみました な、なんと、惨敗。。 GPT3.5でもGPT4でも、全て不正解で正答率0% そして、Google Bardは全問正解 正答率100% ショック。。 ※ステップバイステップでカウント方法を表示させましたが、カウ ント方法は問題なさそうに見えました。

    簡単な文章の文字数を正しくカウントできないのは、問題設定に よっては、かなり致命的ですよね。。 28 今日は、ChatGPTがテーマですので、「あきらめなくていい」とい うお話をします。
  14. ReActとは? ReAct(REasoning and ACTing)は、論文では難しく書かれていますが、簡 単に言うと、大規模言語モデルが苦手を克服する枠組みのこと。(機能拡 張とほぼ同義) BingやBardはこの仕組みを使って、苦手なこと(最新情報の検索や計算 問題など)に対応して、出来ることを拡大しています。 30 インチキじゃないよ~

    ReActを使っているんです!! ※ReActに関する研究論文 ReAct: Synergizing Reasoning and Acting in Language Models 2022年 arXiv : 2210.03629 リンク React.js(JavaScript のライブラリ)じゃな いよ~ LangChain,LlamaIndexなどのライブラリなどを利用して実装します。 ➡具体的な実装方法については、後半の発表をお楽しみに~!
  15. GPTではどうすれば良かったの? OpenAIのベストプラクティスの例)外部ツールを使用する ✓コード実行を使用して、より正確な計算を実行したり、外部 API を呼び出した りする ✓エンベディングベースの検索を使用して効率的なナレッジ検索を実装する ✓モデルに特定の関数へのアクセスを許可する 31 答えは、最近、OpenAIから発表されたベストプラクティスに書か

    れています。➡プログラミングコードを実行して正確な計算をして ね!! (Bardと同じ) ※出展 OpenAI リンク リンク ReAct(REasoning and ACTing)の枠 組み ➡今後は、大規模言語モデルのくせや苦手なタスクを理解した上で、苦手 なタスクについては別の方法で実行するこのReActの枠組みが発達する
  16. というわけで、(可能な場合は) 内部でGPT4を使用しているMicrosoft Bingを利用 することで無料でGPT4を利用可能。また、有料プラ ン(Plus)のメリットだった、GPT4の利用が7月から、 APIを利用したことがある無料ユーザーにも拡大さ れています! 私の環境(無料ユーザ)だとGPT4の32Kも利用できるようになって いました。実際に利用したところちゃんと利用出来ました! ただし、現時点ではWEB

    UIから利用する場合、拡張機能 (SuperpowerChatGPTなど)を入れないとモデルを選択するUI が表示されません。(左図参照) 34 優秀なGPT4のほうを利用しましょう! 無料でGPT4を利用す るチップスを紹介! 出展 OpenAI リンク SBの方は、業務PCに拡張機能を入れないでね!
  17. GPT4の性能アップの理由 公式見解補足 6か月間、GPT-4のアラインメント(※)を繰り返した結果、正確 性(factuality)、操作性(steerability)、安全性(refusing to go outside of guardrails)に関して (完璧には程遠いものの)

    これまに 最高の性能が得られました。 ※本日紹介した強化学習のこと ※出展: OpenAI GPT4 リンク GPT4に関する研究論文 GPT-4 Technical Report 2023年 arxiv : 2303.08774 リンク 39 この情報から、 InstructGPTやGPT-3.5 で行った強化学習によるアラインメント をGPT4でも継続して実施していることが わかります。なお、GPT4モデルでは、現 在進行で学習を継続しているそうです(そ のためGPT4では性能の変動が発生)
  18. GPT4の性能アップの理由 非(!)公式 ※出展:andrelug リンク 40 GPT4はモデルが1つじゃない!? GPT-4は8つのモデルに基づいており、それぞれが 2200億のパラメータを持ち、MoE(Mixture of Experts)アーキテクチャで相互に接続されている

    (合計で1兆7600億のパラメータ)との情報(左) MoEモデルはアンサンブル学習の一種で、「エキス パート」と呼ばれるさまざまなモデルを組み合わせ て判断を下す。MoEモデルでは、選択ネットワーク が入力に基づいて各エキスパートの出力の重みを決 定する。これにより、異なるエキスパートが入力空 間の異なる部分に特化することができる。このアー キテクチャは、問題空間をより単純な部分空間に効 果的に分割できるため、大規模で複雑なデータセッ トに特に有効である。 エキスパートシステムは1970年 台に開発された第2次AIブーム の主役となった技術。 これが本当であれば、第2次AI ブームの主役技術と第3次AI ブーム(いま)の主役のディープ ラーニング技術の統合というこ とに!
  19. GPT関連のヒストリー ✓GPT-1 2018年6月リリース ✓GPT-2 2019年2月リリース ✓GPT-3 2020年6月リリース ✓InstructGPT 2022年1月発表※リリースなし・非公開 ✓GPT-3.5

    2022年3月リリース ✓ChatGPT 2022年11月リリース ※無料のWeb UIを含むリリース 5日で100 万、 2か月で1憶ユーザー ChatGPTはGPT3.5をベースに会話に特化した微調整を加えたモデル ✓GPT4 2023年3月リリース 42