Slide 1

Slide 1 text

GPT3.5以降に性能がアップした 理由に関する理論ほか SoftBank Tech Night #12 ChatGPT 2023年7月28日 澤野 1

Slide 2

Slide 2 text

アジェンダ • ChatGPT(GPT3.5)登場以前の評価とその理由 • ロジック(論理)や数学の問題に弱いGPTモデル • GPT3.5以降~性能アップの2つのヒミツ • Scaling Laws • 強化学習の使用 • ReActとは? • Appendix ※GPTは、「Generative Pre-trained Transformer」の略で、 「Transformer」という深層学習モデルをベースとした大規模な事前学 習済み言語モデルのこと。 2

Slide 3

Slide 3 text

ChatGPT 2か月で1憶ユーザー • ChatGPT 2022 年11 月に公開 • 5日後に100 万ユーザー、2か月で 1憶ユーザーに到達。 • ユーザーの数の急拡大の理由は無 料で簡単に試せるWebサイトを公 開したことが理由。しかも、多言 語に対応。 • GPT3.5以降の性能アップにより、 「性能が良い/良くなった」とい う ”良い印象”を抱かせた • その”良い印象”を与えた性能アッ プの要因について、お話したいと 思います 3

Slide 4

Slide 4 text

研究者の中でのGPTの評価(2022年時点) 評価を端的に物語る例 2022年開催の国際シンポジウム けっこうな辛口コメントでした。。 フランソワ・ショレさん (Google社の著名なAI研究者) 4

Slide 5

Slide 5 text

辛口評価とその理由 GPTが簡単なロジック問題や数学問題に回答できない。 ということが論文等で指摘されてきました。 ■GPT2に関して評価を行なった論文 The Next Decade in AI: Four Steps Towards Robust Artificial Intelligence arXiv : 2002.06177 リンク 本論文中に、前頁のフランソワ・ショレさんのコメントの引用があります。 『AI はその理想には達していない。特定のタスクでは非常に優れたパフォー マンスを発揮することができるが、依然として脆弱で、厳しい制限がある。学 習データや仮定から少しでも逸脱した状況を理解することができず、人間の研 究者の大きな関与なしに新しいタスクに対処することができない。』 5

Slide 6

Slide 6 text

GPT3の出力例 6 【問題】 6 歳児に月面着陸について数文で説明してください。 【GPT-3の回答】 6 歳児に重力の理論を説明します。 6 歳児に相対性理論を数文で説明します。 ビッグバン理論を 6 歳児に説明します。 6歳児に進化について説明します。 ※出展 OpneAI Aligning language models to follow instructions リンク 原文は英語ですが、日本語に翻訳しています。 他にもいろいろ、出力例の比較が公開されています。 面白いので、ぜひ見てみて下さい! GPT3の回答は、ほぼ理解不能。。 悲しいくらいな辛口評価の理由 も納得するしかない。 この回答がどう変わるか、楽し みにしていてください!

Slide 7

Slide 7 text

GPT3.5以降~性能アップの2つのヒミツ GPT3からの変更点 ✓ Scaling Laws ✓ 強化学習の使用 7

Slide 8

Slide 8 text

Scaling Laws OpenAIが発見したScaling Lawsの法則。Transformerベースの言語モデ ルの性能は、モデルサイズ、データセットサイズ、計算量について、べき 乗に比例する(大きいほど性能が良い) Scaling Laws for Neural Language Models 論文 arXiv :2001.08361 リンク ※OpenAI社の研究者が発表した論文 8

Slide 9

Slide 9 text

0 2000 4000 6000 8000 10000 12000 14000 16000 18000 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 パラメータ数の飛躍的な増加 GPT4 1.76 兆? GPT3.5 3,550 億 GPT3 1,750 億 GPT2 15億 9 GPT4については、2200 億パラメータを持つ8つ のモデル(計1.76兆)と の有力なリークがありま した(出展)。100兆以上 というウワサがありまし たが、このウワサは OpenAI CEOが公式に否 定しています(出展)。

Slide 10

Slide 10 text

強化学習とは? 最初に強化学習を適用したモデルはInstructGPTというモデル。 強化学習はまだなじみのない言葉なので、ざっくり強化学習のポ イントを説明。 知的エージェント (AI・ロボット) 環 境 ※通常は、環境 はシミュレー ションを使用 行動 状態・報酬 10 行動を決定する方策(ポリ シー)更新を繰り返す

Slide 11

Slide 11 text

強化学習(RLHF)の使用 GPT以降のヒストリーは、 GPT3➡InstructGPT➡GPT3.5➡ChatGPT➡GPT4 InstructGPTからは強化学習(RLHF:Reinforcement Learning with Human Feedback)を適用。 RLHFは、簡単に言うと、『人間の好みはこうだよ と教えてあ げて、人間が欲しい回答に近づける方法』 (人間の好みを報酬 とする手法) この手法は、アラインメントとも呼ぶ。 GPT3.5/ChatGPT/GPT4では、強化学習(RLHF)を適 用。強化学習はGPTのコア技術 11

Slide 12

Slide 12 text

強化学習(RLHF)の使用 ■RLHFの研究論文 RLHF(reinforcement learning from human feedback)の論文は以下の2つで す。 RLHFは、元は別の目的(ロボットの学習等)で生み出された研究です。 ✓ Deep reinforcement learning from human preferences 2017年 arxiv : 1706.03741 リンク ✓ Learning to summarize from human feedback 2020年 arxiv : 2009.01325 リンク ■RLHFで使用されている強化学習アルゴリズムPPOの研究論文 ✓ Proximal Policy Optimization Algorithms 2017年 arXiv : 1707.06347 リンク ■GPT3にRLHFを適用した研究論文※OpenAI社の研究 ✓ Training language models to follow instructions with human feedback 2022年 arXiv : 2203.02155 リンク ➡本日は、こちらの論文を説明します。 12

Slide 13

Slide 13 text

RLHFの概要 Step1 Step1:教師あり学習でFine-Tuning 質問に対して人間のラベラーが回答を作成し、ラベラーが作成した教師 データでモデルのFine-Tuningを行います。このアプローチを SFT(Supervised Fine-Tuning) と呼びます。 質問を提示。例)6歳 児に月面着陸につい て説明して下さい。 人による回答(教師 データ)を作成する SFT(Supervised Fine-Tuning)を適用 13

Slide 14

Slide 14 text

RLHFの概要 Step2 Step2:報酬モデル(RM:Reward Model)の学習 質問(1つ)と回答(複数)のペアを自動的に生成し、人間のラベラーが優先順 位に従って回答をランク付けします。ラベラーのランク付けに沿った出力 が高い報酬になるよう報酬モデルの学習を行います。 質問と回答のペアを 自動生成 人による回答のラン ク付け 人によるランクに基づい て報酬モデル(RM)の 学習を行う 14

Slide 15

Slide 15 text

RLHFの概要 Step3 Step3:方策の改善 強化学習アルゴリズムのPPO(Proximal Policy Optimization)を使用して、報酬が 最大となるよう方策(回答をどう生成するか決定するポリシー)を繰り返し更新し、方策 の改善を行います。 ➡結果として人(※)が期待する回答が生成されやすくなりま す。※具体的にはラベラーを指すが、ラベラーへの過剰適合を発生させずに性能を向上させる ことに成功したとのこと(論文P12) 報酬を得る。➡方 策(ポリシー)の更 新を繰り返す。※rk はエージェントがある時 刻kに環境から受け取る 報酬の大きさ PPOを使用 して報酬が 最大になる よう学習 報酬モデル で回答に対 する報酬を 計算 質問を提示。例)カエ ルについての物語を 書いて下さい 回答を生成。例) 昔々あるところに.. 繰り返す 15

Slide 16

Slide 16 text

RLHFのまとめ RLHFは、『人間の好みはこうだよ と教えてあげて、人間が欲 しい回答に近づける方法』 (人間の好みを報酬とする手法) ✓Step1 教師あり学習によるpre-training➡人間が介入 ✓Step2 報酬モデルの作成➡人間が介入 ✓Step1 PPOによる強化学習 今後は、『人間の好みをAIに教える』という事が普通になるかも。 16 Step1とStep2で人 間が介入(人間によ る教示データを使 用)ラベラーは全員 で40人で全て英語。

Slide 17

Slide 17 text

RLHFの結果 RLHFを適用したPPO- ptx(InstructGPTモデル) およびPPO モデルは、ベースラインの GPT(prompted)及びGPTを大幅に上 回り、大幅な性能向上を示した。 17

Slide 18

Slide 18 text

RLHFの結果 18 【問題】 6 歳児に月面着陸について数文で説明してください。 【InstructGPTの回答】 人々は月に行き、見たものを写真に撮り、それを地球に送り返し、私 たち全員がそれを見ることができるようにしました。 【GPT3の回答】 6 歳児に重力の理論を説明します。 6 歳児に相対性理論を数文で説明します。 ビッグバン理論を 6 歳児に説明します。 6歳児に進化について説明します。 ※出展 OpneAI Aligning language models to follow instructions リンク 原文は英語ですが、日本語に翻訳しています。 GPT3の回答は、ほ ぼ理解不能。。 まあまあちゃんとした回 答になりました!

Slide 19

Slide 19 text

Scaling LawsとRLHF どっちが重要? 結論から言うと、どちらも重要! ただし、前述のRLHFの論文において、OpenAIの研究者らは、 『 (RLHFによる強化学習の)アライメントを高めるほうが、 大規模なモデルをトレーニングするよりも費用対効果が高 い』と結論 「研究の結果はモデル サイズを 100 倍に増やすよりもRLHFによる アライメントを高めることのほうが効果的であることを示していま す。 」と発表。 ※出展 arXiv : 2203.02155 リンク 19

Slide 20

Slide 20 text

Scaling LawsとRLHF どっちが重要? 下図:TruthfulQAタスクでの回答の正確さ(Accuracy)は、強化学習「前」のモデル ではGPT3.5とGPT4で『わずか』しか変わらない!➡強化学習がGPT3.5とGPT4の 性能差に大きく影響。 20 ※出展:OpenAI リンク 「わずか」という表 現は、公式見解です (原文:only slightly better) GPT-3.5 GPT-4 GPT3.5とGPT4では パラメータ数が大き く違っていたが、、

Slide 21

Slide 21 text

GPT3.5の性能は上がった。 果たして、苦手なロジック問題(論理問題)に も正答できるか、試してみました。 21

Slide 22

Slide 22 text

ロジック問題① 前述の論文(arXiv : 2002.06177)の中にある問題 【問題】 There are six frogs on a log. Two leave, but three join. The number of frogs on the log is now?(丸太の上に6匹のカエルがいます。 2匹は去るが、3 匹が加わる。 丸太に載っているカエルの数は今何匹ですか?) ※原文の英語で実行(日本語に翻訳しています) 【回答】 正解は7匹なのに、論文では17(seventeen)と誤答するという結果になってい たが。。 GPT3.5では7と正確に回答!ロジック問題の精度が上がってい る(かも) ※GPT2やGPT3が試せなかったので断定は避けます。 22

Slide 23

Slide 23 text

ロジック問題② 【問題】箱の中に靴が2足入っています。えんぴつを箱に入れて、靴 を一足取り除きました。箱には何が入っていますか? 【GPT3.5の回答】GPT3.5は『靴1足』と回答。正答は、『靴1足とえ んぴつ』 幼児でも回答できそうな簡単な質問に正答できない。 ? 相変わらず、ロジック問題の精度が悪そうと思ったら・・・! 23 ※問題の出展:人工知能ニュース(東大公開資料) リンク

Slide 24

Slide 24 text

GPT4では正答! 【GPT4の回答】 あなたの質問は、箱の中に何が残っているかということですね。答えは、 靴が1足と鉛筆が入っています。 これは、数学の問題ではなく、単純な論理の問題です。箱の中に靴が2 足入っているという前提から始めます。次に、鉛筆を箱に入れるという 操作を行います。この時点で、箱の中には靴が2足と鉛筆が入っていま す。最後に、靴を1足取り除くという操作を行います。この時点で、箱 の中には靴が1足と鉛筆が残っています。 ※ GPT4 8k,GPT4 32k,Bing(中身はGPT4)で検証しました。 なお、GoogleのBardでも試したらBardも正答でした。 しかも、問題設定がロジック問題であることも理解! GPT4はGPT3.5より賢そう。 24

Slide 25

Slide 25 text

そして、新発見かも!GPT3.5はえんぴつの存在を知って いた!そして、「あえて」無視! ChatGPTがどこを間違えたのか発見したり、ロジックが絡む問題の正答率を 上げたり、わかりやすく説明してもらう工夫として、「ステップバイステッ プ」のキーワードをつけて、指示を与える方法があります。最後に、「ス テップバイステップで考えて下さい」と指示を与えます。 25 【GPT3.5の回答】 ステップバイステップで考えていきましょう。 初めに、箱の中には靴が2足入っているということです。 鉛筆を箱に入れましたが、この情報は問題の答えには 直接関係しませんので、一時的に無視します。靴を一 足取り除きました。したがって、箱の中には1足の靴が 残っています。したがって、箱の中には1足の靴が入っ ています。 間違えた理由が「鉛 筆を無視」した為と いうのがわかります。 このあと、「鉛筆を 無視しないで下さ い。」という指示を 追加することで GPT3.5でも正しく 回答できるようにな りました。

Slide 26

Slide 26 text

GPT3.5への鉛筆と靴問題を再び(2023/7/18時点) ChatGPTが誤答する問題を紹介しましたが、2023年7月18日時点では、異な る回答を生成するようになっていました。 以下は別バージョンの回答です。このやりとりでは「鉛筆を無視しないで下さ い。」と指示せずに「ステップバイステップ」キーワードを使用するだけで正 答できました。(キーワードをつけない場合は誤答になります) 26 【GPT3.5の回答】 ステップバイステップで考えてみましょう 箱の中には靴が2足入っています。靴の数は合計2足で す。鉛筆を箱に入れました。この時点では、靴の数は 変わりません。靴を1足取り除きました。靴が1足取り 除かれたので、箱の中には1足の靴と鉛筆が入っていま す。結果として、箱には1足の靴と鉛筆が入っています。 このやり取りでは、 「鉛筆を無視しな いで下さい。」と いう指示が不要に なりました。

Slide 27

Slide 27 text

GPTがカウントできない・数学が苦手な問題 「OpenAI Developer Forum!」(OpenAI社公式サイト)で公開されて いる事例です。 ①文字数をカウントできない問題 ②数学が苦手問題(数の大小を間違える) 27 ※出展 OpenAI Developer Forum! ①のリンク ②のリンク 面白いのでぜひ試し てみてください!

Slide 28

Slide 28 text

GPTがカウントできない問題 試してみました な、なんと、惨敗。。 GPT3.5でもGPT4でも、全て不正解で正答率0% そして、Google Bardは全問正解 正答率100% ショック。。 ※ステップバイステップでカウント方法を表示させましたが、カウ ント方法は問題なさそうに見えました。 簡単な文章の文字数を正しくカウントできないのは、問題設定に よっては、かなり致命的ですよね。。 28 今日は、ChatGPTがテーマですので、「あきらめなくていい」とい うお話をします。

Slide 29

Slide 29 text

Bardは100%カウント問題に正答!その理由は? Bardでは、Pythonの計算プログラムを実行して計算している。 なんじゃ、それ! 類似の例として、GPTは 2021年9月までのデータで 学習しているので最新の情報 を回答できないという致命的 な問題があるのですが、それ についても、BardやBingで は『検索の実行』という別の 方法で解決しています。 29

Slide 30

Slide 30 text

ReActとは? ReAct(REasoning and ACTing)は、論文では難しく書かれていますが、簡 単に言うと、大規模言語モデルが苦手を克服する枠組みのこと。(機能拡 張とほぼ同義) BingやBardはこの仕組みを使って、苦手なこと(最新情報の検索や計算 問題など)に対応して、出来ることを拡大しています。 30 インチキじゃないよ~ ReActを使っているんです!! ※ReActに関する研究論文 ReAct: Synergizing Reasoning and Acting in Language Models 2022年 arXiv : 2210.03629 リンク React.js(JavaScript のライブラリ)じゃな いよ~ LangChain,LlamaIndexなどのライブラリなどを利用して実装します。 ➡具体的な実装方法については、後半の発表をお楽しみに~!

Slide 31

Slide 31 text

GPTではどうすれば良かったの? OpenAIのベストプラクティスの例)外部ツールを使用する ✓コード実行を使用して、より正確な計算を実行したり、外部 API を呼び出した りする ✓エンベディングベースの検索を使用して効率的なナレッジ検索を実装する ✓モデルに特定の関数へのアクセスを許可する 31 答えは、最近、OpenAIから発表されたベストプラクティスに書か れています。➡プログラミングコードを実行して正確な計算をして ね!! (Bardと同じ) ※出展 OpenAI リンク リンク ReAct(REasoning and ACTing)の枠 組み ➡今後は、大規模言語モデルのくせや苦手なタスクを理解した上で、苦手 なタスクについては別の方法で実行するこのReActの枠組みが発達する

Slide 32

Slide 32 text

GPT4の凄さ① GPT4のすごいところ1点目は性能の向上です。 32

Slide 33

Slide 33 text

GPT4の凄さ② 英語と比較して日本語の学習データは大幅に少ない(※)のに差があ まりない(5%程度)!つまり言語にあまり依存していない。 ※datasetの言語の96%以上が英語(今回紹介した論文中に記載)。なお、強化学習の適用は 100%英語で実施(ラベラーが英語で回答データを作成) 33

Slide 34

Slide 34 text

というわけで、(可能な場合は) 内部でGPT4を使用しているMicrosoft Bingを利用 することで無料でGPT4を利用可能。また、有料プラ ン(Plus)のメリットだった、GPT4の利用が7月から、 APIを利用したことがある無料ユーザーにも拡大さ れています! 私の環境(無料ユーザ)だとGPT4の32Kも利用できるようになって いました。実際に利用したところちゃんと利用出来ました! ただし、現時点ではWEB UIから利用する場合、拡張機能 (SuperpowerChatGPTなど)を入れないとモデルを選択するUI が表示されません。(左図参照) 34 優秀なGPT4のほうを利用しましょう! 無料でGPT4を利用す るチップスを紹介! 出展 OpenAI リンク SBの方は、業務PCに拡張機能を入れないでね!

Slide 35

Slide 35 text

性能アップの本当の理由 最後に、 研究者・エンジニアが研究・改善をし続けたというのが 性能アップの 『ほんとうの理由』というお話。 魔法はない 35 最初のGPT-1のリリース (2018年6月)から InstructGPTの発表 (2022年1月)まで4年 弱!長い?意外と短い?

Slide 36

Slide 36 text

まとめ ✓性能アップの理由はスケールと強化学習 ✓RLHFは人間の好み/欲しい回答を教える手法 ✓GPTには苦手なことがある ✓苦手を克服するReActという枠組みが存在する ✓日々の研究・開発の『継続』が、未来を開く! 36

Slide 37

Slide 37 text

Bingさんに「魔法なし」のイ メージで生成してもらった画像。 ※Bingは5月のバージョンアッ プで画像生成もできるように なっています。 『魔法なし』の生成画像 ご清聴ありがとうございました!! 結局、地道な研究・ 開発の『継続』一択 だよ。 魔法はないよ~。 37

Slide 38

Slide 38 text

Appendix 38

Slide 39

Slide 39 text

GPT4の性能アップの理由 公式見解補足 6か月間、GPT-4のアラインメント(※)を繰り返した結果、正確 性(factuality)、操作性(steerability)、安全性(refusing to go outside of guardrails)に関して (完璧には程遠いものの) これまに 最高の性能が得られました。 ※本日紹介した強化学習のこと ※出展: OpenAI GPT4 リンク GPT4に関する研究論文 GPT-4 Technical Report 2023年 arxiv : 2303.08774 リンク 39 この情報から、 InstructGPTやGPT-3.5 で行った強化学習によるアラインメント をGPT4でも継続して実施していることが わかります。なお、GPT4モデルでは、現 在進行で学習を継続しているそうです(そ のためGPT4では性能の変動が発生)

Slide 40

Slide 40 text

GPT4の性能アップの理由 非(!)公式 ※出展:andrelug リンク 40 GPT4はモデルが1つじゃない!? GPT-4は8つのモデルに基づいており、それぞれが 2200億のパラメータを持ち、MoE(Mixture of Experts)アーキテクチャで相互に接続されている (合計で1兆7600億のパラメータ)との情報(左) MoEモデルはアンサンブル学習の一種で、「エキス パート」と呼ばれるさまざまなモデルを組み合わせ て判断を下す。MoEモデルでは、選択ネットワーク が入力に基づいて各エキスパートの出力の重みを決 定する。これにより、異なるエキスパートが入力空 間の異なる部分に特化することができる。このアー キテクチャは、問題空間をより単純な部分空間に効 果的に分割できるため、大規模で複雑なデータセッ トに特に有効である。 エキスパートシステムは1970年 台に開発された第2次AIブーム の主役となった技術。 これが本当であれば、第2次AI ブームの主役技術と第3次AI ブーム(いま)の主役のディープ ラーニング技術の統合というこ とに!

Slide 41

Slide 41 text

OpenAIが公式ベストプラクティスを発表 OpenAI社から「プロンプトのベスト プラクティス」が発表されました。 特に「明確な指示を出す」の説明が多いです。 ✓より関連性の高い回答を得るには、クエリに詳細を含める ✓ペルソナを含めるよう依頼する ✓区切り文字を使用して、入力の異なる部分を明確に示す ✓タスクを完了するために必要な手順を指定する ✓例を提供する ✓希望する出力の長さを指定する その他の「ベスト プラクティス」は次のとおり。 参考例を提示する、複雑なタスクを分割する、GPTに「考える」時間を 与える、外部ツールを使用する等。 41 ※出展:OpenAI リンク

Slide 42

Slide 42 text

GPT関連のヒストリー ✓GPT-1 2018年6月リリース ✓GPT-2 2019年2月リリース ✓GPT-3 2020年6月リリース ✓InstructGPT 2022年1月発表※リリースなし・非公開 ✓GPT-3.5 2022年3月リリース ✓ChatGPT 2022年11月リリース ※無料のWeb UIを含むリリース 5日で100 万、 2か月で1憶ユーザー ChatGPTはGPT3.5をベースに会話に特化した微調整を加えたモデル ✓GPT4 2023年3月リリース 42

Slide 43

Slide 43 text

END 43