GPT3.5以降に性能がアップした理由に関する理論ほか

GPT3.5以降に性能がアップした理由に関する理論ほか SoftBank Tech Night #12 ChatGPT ２０２３年7月28日澤野 1

アジェンダ • ChatGPT(GPT3.5)登場以前の評価とその理由 • ロジック（論理）や数学の問題に弱いGPTモデル • GPT3.5以降～性能アップの２つのヒミツ • Scaling Laws
• 強化学習の使用 • ReActとは？ • Appendix ※GPTは、「Generative Pre-trained Transformer」の略で、「Transformer」という深層学習モデルをベースとした大規模な事前学習済み言語モデルのこと。 2

ChatGPT 2か月で１憶ユーザー • ChatGPT 2022 年11 月に公開 • 5日後に100 万ユーザー、2か月で
1憶ユーザーに到達。 • ユーザーの数の急拡大の理由は無料で簡単に試せるWebサイトを公開したことが理由。しかも、多言語に対応。 • GPT3.5以降の性能アップにより、「性能が良い/良くなった」という ”良い印象”を抱かせた • その”良い印象”を与えた性能アップの要因について、お話したいと思います 3

研究者の中でのGPTの評価(2022年時点) 評価を端的に物語る例 2022年開催の国際シンポジウムけっこうな辛口コメントでした。。フランソワ・ショレさん (Google社の著名なAI研究者) 4

辛口評価とその理由 GPTが簡単なロジック問題や数学問題に回答できない。ということが論文等で指摘されてきました。 ▪GPT2に関して評価を行なった論文 The Next Decade in AI: Four
Steps Towards Robust Artificial Intelligence arXiv : 2002.06177 リンク本論文中に、前頁のフランソワ・ショレさんのコメントの引用があります。『AI はその理想には達していない。特定のタスクでは非常に優れたパフォーマンスを発揮することができるが、依然として脆弱で、厳しい制限がある。学習データや仮定から少しでも逸脱した状況を理解することができず、人間の研究者の大きな関与なしに新しいタスクに対処することができない。』 5

GPT3の出力例 6 【問題】 6 歳児に月面着陸について数文で説明してください。【GPT-3の回答】 6 歳児に重力の理論を説明します。 6 歳児に相対性理論を数文で説明します。
ビッグバン理論を 6 歳児に説明します。 6歳児に進化について説明します。 ※出展 OpneAI Aligning language models to follow instructions リンク原文は英語ですが、日本語に翻訳しています。他にもいろいろ、出力例の比較が公開されています。面白いので、ぜひ見てみて下さい！ GPT3の回答は、ほぼ理解不能。。悲しいくらいな辛口評価の理由も納得するしかない。この回答がどう変わるか、楽しみにしていてください！

GPT3.5以降～性能アップの２つのヒミツ GPT3からの変更点 ✓ Scaling Laws ✓ 強化学習の使用 7

Scaling Laws OpenAIが発見したScaling Lawsの法則。Transformerベースの言語モデルの性能は、モデルサイズ、データセットサイズ、計算量について、べき乗に比例する(大きいほど性能が良い) Scaling Laws for Neural
Language Models 論文 arXiv :2001.08361 リンク ※OpenAI社の研究者が発表した論文 8

0 2000 4000 6000 8000 10000 12000 14000 16000 18000
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 パラメータ数の飛躍的な増加 GPT4 1.76 兆? GPT3.5 3,550 億 GPT3 1,750 億 GPT2 15億 9 GPT4については、2200 億パラメータを持つ8つのモデル(計1.76兆)との有力なリークがありました(出展)。100兆以上というウワサがありましたが、このウワサは OpenAI CEOが公式に否定しています(出展)。

強化学習とは？最初に強化学習を適用したモデルはInstructGPTというモデル。強化学習はまだなじみのない言葉なので、ざっくり強化学習のポイントを説明。知的エージェント (AI・ロボット) 環境 ※通常は、環境はシミュレー
ションを使用行動状態・報酬 10 行動を決定する方策(ポリシー）更新を繰り返す

強化学習(RLHF)の使用 GPT以降のヒストリーは、 GPT3➡InstructGPT➡GPT3.5➡ChatGPT➡GPT４ InstructGPTからは強化学習(RLHF:Reinforcement Learning with Human Feedback)を適用。 RLHFは、簡単に言うと、『人間の好みはこうだよと教えてあ
げて、人間が欲しい回答に近づける方法』 (人間の好みを報酬とする手法) この手法は、アラインメントとも呼ぶ。 GPT3.5/ChatGPT/GPT4では、強化学習(RLHF)を適用。強化学習はGPTのコア技術 11

強化学習(RLHF)の使用 ▪RLHFの研究論文 RLHF(reinforcement learning from human feedback)の論文は以下の2つです。 RLHFは、元は別の目的(ロボットの学習等)で生み出された研究です。 ✓
Deep reinforcement learning from human preferences 2017年 arxiv : 1706.03741 リンク ✓ Learning to summarize from human feedback 2020年 arxiv : 2009.01325 リンク ▪RLHFで使用されている強化学習アルゴリズムPPOの研究論文 ✓ Proximal Policy Optimization Algorithms 2017年 arXiv : 1707.06347 リンク ▪GPT3にRLHFを適用した研究論文※OpenAI社の研究 ✓ Training language models to follow instructions with human feedback 2022年 arXiv : 2203.02155 リンク ➡本日は、こちらの論文を説明します。 12

RLHFの概要 Step1 Step1：教師あり学習でFine-Tuning 質問に対して人間のラベラーが回答を作成し、ラベラーが作成した教師データでモデルのFine-Tuningを行います。このアプローチを SFT(Supervised Fine-Tuning) と呼びます。質問を提示。例)6歳児に月面着陸につい
て説明して下さい。人による回答(教師データ)を作成する SFT(Supervised Fine-Tuning)を適用 13

RLHFの概要 Step2 Step2：報酬モデル(RM:Reward Model)の学習質問(1つ)と回答(複数)のペアを自動的に生成し、人間のラベラーが優先順位に従って回答をランク付けします。ラベラーのランク付けに沿った出力が高い報酬になるよう報酬モデルの学習を行います。質問と回答のペアを自動生成人による回答のラン
ク付け人によるランクに基づいて報酬モデル（RM）の学習を行う 14

RLHFの概要 Step3 Step3：方策の改善強化学習アルゴリズムのPPO(Proximal Policy Optimization)を使用して、報酬が最大となるよう方策(回答をどう生成するか決定するポリシー)を繰り返し更新し、方策の改善を行います。 ➡結果として人(※）が期待する回答が生成されやすくなります。※具体的にはラベラーを指すが、ラベラーへの過剰適合を発生させずに性能を向上させる
ことに成功したとのこと（論文P12）報酬を得る。➡方策(ポリシー)の更新を繰り返す。※rk はエージェントがある時刻kに環境から受け取る報酬の大きさ PPOを使用して報酬が最大になるよう学習報酬モデルで回答に対する報酬を計算質問を提示。例)カエルについての物語を書いて下さい回答を生成。例) 昔々あるところに.. 繰り返す 15

RLHFのまとめ RLHFは、『人間の好みはこうだよと教えてあげて、人間が欲しい回答に近づける方法』 (人間の好みを報酬とする手法) ✓Step1 教師あり学習によるpre-training➡人間が介入 ✓Step2 報酬モデルの作成➡人間が介入 ✓Step1
PPOによる強化学習今後は、『人間の好みをAIに教える』という事が普通になるかも。 16 Step1とStep2で人間が介入（人間による教示データを使用）ラベラーは全員で40人で全て英語。

RLHFの結果 RLHFを適用したPPO- ptx(InstructGPTモデル) およびPPO モデルは、ベースラインの GPT(prompted)及びGPTを大幅に上回り、大幅な性能向上を示した。 17

RLHFの結果 18 【問題】 6 歳児に月面着陸について数文で説明してください。【InstructGPTの回答】人々は月に行き、見たものを写真に撮り、それを地球に送り返し、私たち全員がそれを見ることができるようにしました。【GPT3の回答】 6
歳児に重力の理論を説明します。 6 歳児に相対性理論を数文で説明します。ビッグバン理論を 6 歳児に説明します。 6歳児に進化について説明します。 ※出展 OpneAI Aligning language models to follow instructions リンク原文は英語ですが、日本語に翻訳しています。 GPT3の回答は、ほぼ理解不能。。まあまあちゃんとした回答になりました！

Scaling LawsとRLHF どっちが重要？結論から言うと、どちらも重要！ただし、前述のRLHFの論文において、OpenAIの研究者らは、『 (RLHFによる強化学習の)アライメントを高めるほうが、大規模なモデルをトレーニングするよりも費用対効果が高い』と結論「研究の結果はモデル
サイズを 100 倍に増やすよりもRLHFによるアライメントを高めることのほうが効果的であることを示しています。」と発表。 ※出展 arXiv : 2203.02155 リンク 19

Scaling LawsとRLHF どっちが重要？下図：TruthfulQAタスクでの回答の正確さ(Accuracy)は、強化学習「前」のモデルではGPT3.5とGPT4で『わずか』しか変わらない！➡強化学習がGPT3.5とGPT4の性能差に大きく影響。 20 ※出展:OpenAI リンク「わずか」という表
現は、公式見解です (原文：only slightly better) GPT-3.5 GPT-4 GPT3.5とGPT4ではパラメータ数が大きく違っていたが、、

GPT3.5の性能は上がった。果たして、苦手なロジック問題(論理問題)にも正答できるか、試してみました。 21

ロジック問題① 前述の論文(arXiv : 2002.06177)の中にある問題【問題】 There are six frogs on
a log. Two leave, but three join. The number of frogs on the log is now?(丸太の上に6匹のカエルがいます。 2匹は去るが、3 匹が加わる。丸太に載っているカエルの数は今何匹ですか？） ※原文の英語で実行(日本語に翻訳しています) 【回答】正解は7匹なのに、論文では17(seventeen)と誤答するという結果になっていたが。。 GPT3.5では7と正確に回答！ロジック問題の精度が上がっている(かも) ※GPT2やGPT3が試せなかったので断定は避けます。 22

ロジック問題② 【問題】箱の中に靴が２足入っています。えんぴつを箱に入れて、靴を一足取り除きました。箱には何が入っていますか？【GPT3.5の回答】GPT3.5は『靴1足』と回答。正答は、『靴1足とえんぴつ』幼児でも回答できそうな簡単な質問に正答できない。？相変わらず、ロジック問題の精度が悪そうと思ったら・・・！ 23 ※問題の出展:人工知能ニュース(東大公開資料)
リンク

GPT4では正答！【GPT4の回答】あなたの質問は、箱の中に何が残っているかということですね。答えは、靴が1足と鉛筆が入っています。これは、数学の問題ではなく、単純な論理の問題です。箱の中に靴が2 足入っているという前提から始めます。次に、鉛筆を箱に入れるという操作を行います。この時点で、箱の中には靴が2足と鉛筆が入っています。最後に、靴を1足取り除くという操作を行います。この時点で、箱の中には靴が1足と鉛筆が残っています。 ※
GPT4 8k,GPT4 32k,Bing(中身はGPT4)で検証しました。なお、GoogleのBardでも試したらBardも正答でした。しかも、問題設定がロジック問題であることも理解！ GPT4はGPT3.5より賢そう。 24

そして、新発見かも！GPT3.5はえんぴつの存在を知っていた！そして、「あえて」無視！ ChatGPTがどこを間違えたのか発見したり、ロジックが絡む問題の正答率を上げたり、わかりやすく説明してもらう工夫として、「ステップバイステップ」のキーワードをつけて、指示を与える方法があります。最後に、「ステップバイステップで考えて下さい」と指示を与えます。 25 【GPT3.5の回答】ステップバイステップで考えていきましょう。初めに、箱の中には靴が2足入っているということです。
鉛筆を箱に入れましたが、この情報は問題の答えには直接関係しませんので、一時的に無視します。靴を一足取り除きました。したがって、箱の中には1足の靴が残っています。したがって、箱の中には1足の靴が入っています。間違えた理由が「鉛筆を無視」した為というのがわかります。このあと、「鉛筆を無視しないで下さい。」という指示を追加することで GPT3.5でも正しく回答できるようになりました。

GPT3.5への鉛筆と靴問題を再び(2023/7/18時点) ChatGPTが誤答する問題を紹介しましたが、2023年7月18日時点では、異なる回答を生成するようになっていました。以下は別バージョンの回答です。このやりとりでは「鉛筆を無視しないで下さい。」と指示せずに「ステップバイステップ」キーワードを使用するだけで正答できました。(キーワードをつけない場合は誤答になります) 26 【GPT3.5の回答】ステップバイステップで考えてみましょう箱の中には靴が2足入っています。靴の数は合計2足で
す。鉛筆を箱に入れました。この時点では、靴の数は変わりません。靴を1足取り除きました。靴が1足取り除かれたので、箱の中には1足の靴と鉛筆が入っています。結果として、箱には1足の靴と鉛筆が入っています。このやり取りでは、「鉛筆を無視しないで下さい。」という指示が不要になりました。

GPTがカウントできない・数学が苦手な問題「OpenAI Developer Forum!」(OpenAI社公式サイト)で公開されている事例です。 ①文字数をカウントできない問題 ②数学が苦手問題(数の大小を間違える) 27 ※出展 OpenAI
Developer Forum! ①のリンク ②のリンク面白いのでぜひ試してみてください！

GPTがカウントできない問題試してみましたな、なんと、惨敗。。 GPT3.5でもGPT4でも、全て不正解で正答率0% そして、Google Bardは全問正解正答率100% ショック。。 ※ステップバイステップでカウント方法を表示させましたが、カウント方法は問題なさそうに見えました。
簡単な文章の文字数を正しくカウントできないのは、問題設定によっては、かなり致命的ですよね。。 28 今日は、ChatGPTがテーマですので、「あきらめなくていい」というお話をします。

Bardは100%カウント問題に正答！その理由は？ Bardでは、Pythonの計算プログラムを実行して計算している。なんじゃ、それ！類似の例として、GPTは 2021年9月までのデータで学習しているので最新の情報を回答できないという致命的な問題があるのですが、それについても、BardやBingでは『検索の実行』という別の
方法で解決しています。 29

ReActとは？ ReAct（REasoning and ACTing）は、論文では難しく書かれていますが、簡単に言うと、大規模言語モデルが苦手を克服する枠組みのこと。(機能拡張とほぼ同義) BingやBardはこの仕組みを使って、苦手なこと(最新情報の検索や計算問題など)に対応して、出来ることを拡大しています。 30 インチキじゃないよ～
ReActを使っているんです!! ※ReActに関する研究論文 ReAct: Synergizing Reasoning and Acting in Language Models 2022年 arXiv : 2210.03629 リンク React.js(JavaScript のライブラリ)じゃないよ～ LangChain,LlamaIndexなどのライブラリなどを利用して実装します。 ➡具体的な実装方法については、後半の発表をお楽しみに～！

GPTではどうすれば良かったの？ OpenAIのベストプラクティスの例)外部ツールを使用する ✓コード実行を使用して、より正確な計算を実行したり、外部 API を呼び出したりする ✓エンベディングベースの検索を使用して効率的なナレッジ検索を実装する ✓モデルに特定の関数へのアクセスを許可する 31 答えは、最近、OpenAIから発表されたベストプラクティスに書か
れています。➡プログラミングコードを実行して正確な計算をしてね!! (Bardと同じ) ※出展 OpenAI リンクリンク ReAct（REasoning and ACTing）の枠組み ➡今後は、大規模言語モデルのくせや苦手なタスクを理解した上で、苦手なタスクについては別の方法で実行するこのReActの枠組みが発達する

GPT4の凄さ① GPT4のすごいところ１点目は性能の向上です。 32

GPT4の凄さ② 英語と比較して日本語の学習データは大幅に少ない(※)のに差があまりない(5%程度)！つまり言語にあまり依存していない。 ※datasetの言語の96％以上が英語(今回紹介した論文中に記載)。なお、強化学習の適用は 100%英語で実施(ラベラーが英語で回答データを作成) 33

というわけで、(可能な場合は) 内部でGPT4を使用しているMicrosoft Bingを利用することで無料でGPT4を利用可能。また、有料プラン(Plus)のメリットだった、GPT４の利用が7月から、 APIを利用したことがある無料ユーザーにも拡大されています！私の環境(無料ユーザ)だとGPT4の32Kも利用できるようになっていました。実際に利用したところちゃんと利用出来ました！ただし、現時点ではWEB
UIから利用する場合、拡張機能 (SuperpowerChatGPTなど）を入れないとモデルを選択するUI が表示されません。(左図参照) 34 優秀なGPT4のほうを利用しましょう！無料でGPT4を利用するチップスを紹介！出展 OpenAI リンク SBの方は、業務PCに拡張機能を入れないでね！

性能アップの本当の理由最後に、研究者・エンジニアが研究・改善をし続けたというのが性能アップの『ほんとうの理由』というお話。魔法はない 35 最初のGPT-1のリリース (2018年6月)から InstructGPTの発表
(2022年1月)まで4年弱！長い？意外と短い？

まとめ ✓性能アップの理由はスケールと強化学習 ✓RLHFは人間の好み/欲しい回答を教える手法 ✓GPTには苦手なことがある ✓苦手を克服するReActという枠組みが存在する ✓日々の研究・開発の『継続』が、未来を開く！ 36

Bingさんに「魔法なし」のイメージで生成してもらった画像。 ※Bingは5月のバージョンアップで画像生成もできるようになっています。『魔法なし』の生成画像ご清聴ありがとうございました！！結局、地道な研究・開発の『継続』一択だよ。
魔法はないよ～。 37

Appendix 38

GPT4の性能アップの理由公式見解補足 6か月間、GPT-4のアラインメント(※)を繰り返した結果、正確性(factuality)、操作性(steerability)、安全性(refusing to go outside of guardrails)に関して (完璧には程遠いものの)
これまに最高の性能が得られました。 ※本日紹介した強化学習のこと ※出展： OpenAI GPT4 リンク GPT4に関する研究論文 GPT-4 Technical Report 2023年 arxiv : 2303.08774 リンク 39 この情報から、 InstructGPTやGPT-3.5 で行った強化学習によるアラインメントをGPT4でも継続して実施していることがわかります。なお、GPT4モデルでは、現在進行で学習を継続しているそうです(そのためGPT4では性能の変動が発生)

GPT4の性能アップの理由非(!)公式 ※出展：andrelug リンク 40 GPT4はモデルが１つじゃない！？ GPT-4は8つのモデルに基づいており、それぞれが 2200億のパラメータを持ち、MoE（Mixture of Experts）アーキテクチャで相互に接続されている
(合計で1兆7600億のパラメータ)との情報(左) MoEモデルはアンサンブル学習の一種で、「エキスパート」と呼ばれるさまざまなモデルを組み合わせて判断を下す。MoEモデルでは、選択ネットワークが入力に基づいて各エキスパートの出力の重みを決定する。これにより、異なるエキスパートが入力空間の異なる部分に特化することができる。このアーキテクチャは、問題空間をより単純な部分空間に効果的に分割できるため、大規模で複雑なデータセットに特に有効である。エキスパートシステムは1970年台に開発された第2次AIブームの主役となった技術。これが本当であれば、第2次AI ブームの主役技術と第3次AI ブーム(いま)の主役のディープラーニング技術の統合ということに！

OpenAIが公式ベストプラクティスを発表 OpenAI社から「プロンプトのベストプラクティス」が発表されました。特に「明確な指示を出す」の説明が多いです。 ✓より関連性の高い回答を得るには、クエリに詳細を含める ✓ペルソナを含めるよう依頼する ✓区切り文字を使用して、入力の異なる部分を明確に示す ✓タスクを完了するために必要な手順を指定する ✓例を提供する ✓希望する出力の長さを指定する
その他の「ベストプラクティス」は次のとおり。参考例を提示する、複雑なタスクを分割する、GPTに「考える」時間を与える、外部ツールを使用する等。 41 ※出展：OpenAI リンク

GPT関連のヒストリー ✓GPT-1 2018年6月リリース ✓GPT-2 2019年2月リリース ✓GPT-3 2020年6月リリース ✓InstructGPT 2022年1月発表※リリースなし・非公開 ✓GPT-3.5
2022年3月リリース ✓ChatGPT 2022年11月リリース ※無料のWeb UIを含むリリース 5日で100 万、 2か月で1憶ユーザー ChatGPTはGPT3.5をベースに会話に特化した微調整を加えたモデル ✓GPT4 2023年3月リリース 42

END 43

GPT3.5以降に性能がアップした理由に関する理論ほか

GPT3.5以降に性能がアップした理由に関する理論ほか

SoftBank Tech Night

More Decks by SoftBank Tech Night

Other Decks in Technology

Featured

Transcript