PLaMo-100B-Instruct 国産大規模言語モデル構築における事後学習の取り組み

Slide 1

Slide 1 text

PLaMo-100B-Instruct 国産大規模言語モデル構築における事後学習の取り組み株式会社 Preferred Elements 中郷孝祐

Slide 2

Slide 2 text

2 ● 中郷孝祐 @corochann ● 東京大学大学院 ○ 量子コンピュータの理論研究(断熱量子計算) ● Sony EMCS Malaysia ○ テレビのソフトウェア開発 ● Preferred Networks (PFN, PFCC, PFE) ○ Deep Learningの製造業への応用研究開発 ○ 超高速汎用原子シミュレーター”Matlantis”の研究開発 →PFCCにて組織立ち上げ・グローバル展開推進 ○ PFEにて、PLaMo-100B 事後学習の開発&マネジメント ● Kaggle 2x Grandmaster (Competitions & Notebooks) 自己紹介

Slide 3

Slide 3 text

国産フルスクラッチ LLM PLaMo-100B

Slide 4

Slide 4 text

4 ● 1000億パラメータを持つ国産フルスクラッチLLM ● Preferred Networksのグループ会社であるPreferred Elementsが開発 ● 日本語のデータを重点的に学習しており、日本文化の理解に強みをもつ ● 経済産業省が主導するプロジェクト GENIAC（Generative AI Accelerator Challenge）に採択計算資源の提供を受けて、 2024/5 ~ 2024/8 に開発を実施 PLaMo-100Bとは PLaMo Prime: https://plamo.preferredai.jp/ PLaMo-100Bをもとに開発した製品 Chat Completion APIやChat UIを提供

Slide 5

Slide 5 text

5 海外で開発されているFrontier Modelは英語のデータがメインとなっている ● 例えばCommonCrawlでは、その約半分が英語のデータであり、日本語のデータは6% 以下である (https://en.wikipedia.org/wiki/Common_Crawl) ● こういったデータで学習されたLLMは英語でのPerformanceがよい ● PLaMoは学習データに日本語データを重点的に入れることで、日本語・日本固有の知識に強いLLMを構築することを目指すなぜ国産モデルが必要か？ 🇸 🇵 🇸 🇵 海外製LLM

Slide 6

Slide 6 text

6 日本が自国で生成AI基盤モデルを開発できないと、、、日本固有の文化・法律・倫理観を反映したアプリケーションの開発に対して自国での研究開発コントロールができず、世界との競争力を失う。想定される事例 ● 国内の法令、社名変更、etc…が対応されず、汎用的に活用できない ● 書籍・商品等の情報が十分に蓄積されず国内の文化が失われる ● 国内の地理情報が十分に活用されず利便性が向上しない日本固有の文化・法律・倫理観などを理解した国産 LLMの開発は、日本の産業力の強化および文化資産の維持にとって不可欠である。なぜ国産モデルが必要か？

Slide 7

Slide 7 text

⽇本 (東京駅) イギリス (シティ‧オブ‧ロンドン) アメリカ (サンフランシスコ) 韓国 (ソウル駅) Yahoo! 地図やゼンリン等で競合が多く情報が多いインドアマップに対応したビルが多く利便性も⾼い開発元の国や地域は情報が多い新機能が最初に公開されインドアマップ等様々な機能が実装されている競合が少なく情報が少ないインドアマップも空港等の主要な場所のみに限られている法規制があり情報が少ないインドアマップ、3Dビュー、地域の⾊分け等の多くの機能に対応していない © Google Maps 󰏦 󰑔 󰏅 󰏮 約110件競争が「ある」場所競争が「ない」場所約90件約40件約40件

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

　　　　 vs ChatGPT © Google Maps 東京駅近くのフレンチレストランでおすすめを教えて国産化による違い

Slide 11

Slide 11 text

★ © Google Maps ★ ★ 1 1 東京駅近くのフレンチレストランでおすすめを教えて国産化による違い ChatGPT

Slide 12

Slide 12 text

★ 1 ★ 1 ★ 2 © Google Maps 東京駅近くのフレンチレストランでおすすめを教えて国産化による違い ★ 2 ChatGPT

Slide 13

Slide 13 text

★ ★ 1 3 ★ 1 ★ 2 ★ 3 © Google Maps 東京駅近くのフレンチレストランでおすすめを教えて国産化による違い ★ 2 ChatGPT

Slide 14

Slide 14 text

事後学習とは

Slide 15

Slide 15 text

15 ● 事前学習: 大規模コーパスを学ぶ ○ モデルは様々な文法・知識を内部的には理解・獲得しているが、それを役に立つ形でユーザーが得るのは簡単ではない ● 事後学習: 高品質な指示学習データ・Preferenceデータを用いて学ぶ ○ 人間にとって使いやすくなり、アプリケーションとして機能するように事後学習とはなにか PLaMo-100B 未学習大規模コーパス事前学習 PLaMo-100B -Base 指示学習 (SFT)データ Preferenceデータ事後学習 PLaMo-100B -Instruct

Slide 16

Slide 16 text

16 事後学習の効果北海道大学へは、札幌駅から徒歩で行くことができます。札幌駅から北海道大学までは、約1.5キロメートルの距離があります。徒歩で行く場合は、約20分程度の時間がかかります北海道大学に行きたいです、どこの駅から歩いて行けますか？北海道大学のキャンパスは複数ありますが、メインとなる札幌キャンパスへの最寄り駅は、札幌市営地下鉄南北線の「北12条駅」と「北18条駅」で、どちらからも徒歩5～7分程度です。JR札幌駅からは、北口を出て徒歩10分程度です。なお、北海道大学の敷地は広大で、キャンパス内の移動にも時間がかかる場合があります。また、冬季は積雪や凍結により、徒歩での移動に通常よりも時間がかかる可能性がありますので、ご注意ください。詳しくは、北海道大学の公式ホームページ等でご確認されることをおすすめいたします。 ※ base modelに対しては、事後学習モデル相当の chat_templateを適用して推論した PLaMo-100B-Base PLaMo-100B-Instruct Prompt

Slide 17

Slide 17 text

17 事後学習の効果北海道大学へは、札幌駅から徒歩で行くことができます。札幌駅から北海道大学までは、約1.5キロメートルの距離があります。徒歩で行く場合は、約20分程度の時間がかかります北海道大学に行きたいです、どこの駅から歩いて行けますか？北海道大学のキャンパスは複数ありますが、メインとなる札幌キャンパスへの最寄り駅は、札幌市営地下鉄南北線の「北 12 条駅」と「北 18条駅」で、どちらからも徒歩5～7分程度です。JR 札幌駅からは、北口を出て徒歩10分程度です。なお、北海道大学の敷地は広大で、キャンパス内の移動にも時間がかかる場合があります。また、冬季は積雪や凍結により、徒歩での移動に通常よりも時間がかかる可能性がありますので、ご注意ください。詳しくは、北海道大学の公式ホームページ等でご確認されることをおすすめいたします。 ※ base modelに対しては、事後学習モデル相当の chat_templateを適用して推論した PLaMo-100B-Base PLaMo-100B-Instruct Prompt 一番有名な札幌駅のみを言及親切ではない。所要時間も大間違いではないが、少しずれている。

Slide 18

Slide 18 text

18 事後学習の効果北海道大学へは、札幌駅から徒歩で行くことができます。札幌駅から北海道大学までは、約1.5キロメートルの距離があります。徒歩で行く場合は、約20分程度の時間がかかります北海道大学に行きたいです、どこの駅から歩いて行けますか？北海道大学のキャンパスは複数ありますが、メインとなる札幌キャンパスへの最寄り駅は、札幌市営地下鉄南北線の「北 12 条駅」と「北 18条駅」で、どちらからも徒歩5～7分程度です。JR 札幌駅からは、北口を出て徒歩10分程度です。なお、北海道大学の敷地は広大で、キャンパス内の移動にも時間がかかる場合があります。また、冬季は積雪や凍結により、徒歩での移動に通常よりも時間がかかる可能性がありますので、ご注意ください。詳しくは、北海道大学の公式ホームページ等でご確認されることをおすすめいたします。 ※ base modelに対しては、事後学習モデル相当の chat_templateを適用して推論した PLaMo-100B-Base PLaMo-100B-Instruct Prompt 徒歩圏内でいける３駅をきちんと網羅して紹介北海道大学ならではの特色を踏まえた有益な追加情報より確かな最終情報取得方法を提示

Slide 19

Slide 19 text

19 事後学習の効果北海道大学へは、札幌駅から徒歩で行くことができます。札幌駅から北海道大学までは、約1.5キロメートルの距離があります。徒歩で行く場合は、約20分程度の時間がかかります北海道大学に行きたいです、どこの駅から歩いて行けますか？北海道大学のキャンパスは複数ありますが、メインとなる札幌キャンパスへの最寄り駅は、札幌市営地下鉄南北線の「北 12 条駅」と「北 18条駅」で、どちらからも徒歩5～7分程度です。JR 札幌駅からは、北口を出て徒歩10分程度です。なお、北海道大学の敷地は広大で、キャンパス内の移動にも時間がかかる場合があります。また、冬季は積雪や凍結により、徒歩での移動に通常よりも時間がかかる可能性がありますので、ご注意ください。詳しくは、北海道大学の公式ホームページ等でご確認されることをおすすめいたします。 ※ base modelに対しては、事後学習モデル相当の chat_templateを適用して推論した PLaMo-100B-Base PLaMo-100B-Instruct Prompt 徒歩圏内でいける３駅をきちんと網羅して紹介北海道大学ならではの特色を踏まえた有益な追加情報より確かな最終情報取得方法を提示どんなに良い“原石”が事前学習から得られていても、適切な“事後学習を行い“宝石”に磨き込まなければ真価が発揮できない！ https://www.ghibli.jp/works/mimi/

Slide 20

Slide 20 text

PLaMo-100Bの事後学習

Slide 21

Slide 21 text

21 SFT、DPOそれぞれを多段で学習し、さらにModel Mergeにより頑健性の向上を狙う事後学習のパイプライン SFT1 & 2 PLaMo-100B -Base DPO1 & 2 SFT Training Dataset On-policy Preference Dataset Oﬀ-policy Preference Dataset PLaMo-100B -Instruct Model Merge 事後学習 (Post-training)

Slide 22

Slide 22 text

22 Supervised Fine-tuning (SFT) 事後学習: SFTについて事前学習 SFT PFNのプロダクト Preferred Networks(PFN)は、深層学習などのソフトウェア技術と計算基盤などのハードウェア技術を独自の方法で組み合わせ、産業向けソリューションからコンシューマー向けサービスまで幅広く業界をまたがるプロダクトを開発・提供しています。研究開発中のプロジェクト、プロセッサーやスーパーコンピュータなどの計算基盤、PFNが開発に関わる各種オープンソースソフトウェアについてはProjectsをご覧ください。文章全てに対して次の単語を予測して学習以下はタスクを説明する指示で、文脈を説明した入力とペアになっています。以下はタスクを説明する指示で、文脈を説明した入力とペアになっています。 ## 指示: PFNのプロダクトについて教えてください。 ## 応答: Preferred Networks(PFN)は、深層学習などのソフトウェア技術と計算基盤などのハードウェア技術を独自の方法で組み合わせ、産業向けソリューションからコンシューマー向けサービスまで幅広く業界をまたがるプロダクトを開発・提供しています。ユーザーの質問とLLMによる応答部分で構成し、応答部分のみ学習 PLaMo-13Bで使われたAlpaca Formatの例応答部分のみ学習全体を学習

Slide 23

Slide 23 text

23 事後学習: SFTについて実験を通して数学系の回答品質向上が難しいことが判明。かなり多くのデータを入れないと、回答品質が上がらない。前段で数学系データを重点的に学習させることに SFT1 PLaMo-100B -Base SFT Math Training Dataset SFT 2 SFT General Training Dataset PLaMo-100B -SFT Nemotron 4 https://arxiv.org/pdf/2406.11704 より

Slide 24

Slide 24 text

24 Direct Preference Optimization (DPO) [Rafailov et al, 2024] 事後学習: DPOについて DPO 好ましい回答 chosenと質の悪い回答rejectedのペアからなるデータセット(Preference Dataset) で学習を進める。chosenの生成確率を上げ、rejectedの生成確率を下げるように学習する。負例について学べるところがSFTとの大きな違いの一つ。以下はタスクを説明する指示で、文脈を説明した入力とペアになっています。以下はタスクを説明する指示で、文脈を説明した入力とペアになっています。 ## 指示: PFNのプロダクトについて教えてください。 chosen rejected prompt ## 応答: PFNの住所は東京都千代田区大手町1-6-1大手町ビルです。 ## 応答: Preferred Networks(PFN)は、深層学習などのソフトウェア技術と計算基盤などのハードウェア技術を独自の方法で組み合わせ、産業向けソリューションからコンシューマー向けサービスまで幅広く業界をまたがるプロダクトを開発・提供しています。

Slide 25

Slide 25 text

25 PPO ● DPOロスを最小化するPolicy π θ は、 PPOアルゴリズムでの最適なPolicy π θ と理論的には一致する事後学習: DPOのロス数式などは Rafailov et al, 2024より DPO 第1項: Reward を最大化を目指す。 Reward Model r φ が必要第2項: Reference Policy π ref から離れすぎないように KL正則化ロスを計算してFine-tuningを行う学習方式で学習可能 - π ref から離れすぎないようにしつつ、 y w の尤度を増やし、y l の尤度を減らすように学習 y w , y l というペアさえあれば、 Reward Modelは学習時に不要 Instruct-GPTにて OpenAIがRLHFで用いていた強化学習手法

Slide 26

Slide 26 text

26 On-policyのデータを何度も活用することが重要[RLHF Workflow] 事後学習: On-policyデータとOff-policyデータ Off-policy: 人手で作成したデータなど On-policy: 学習対象のLLMで生成した文章に、正例・負例のラベルをつける

Slide 27

Slide 27 text

27 Iterative DPO RLHF Workﬂow Fig4より

Slide 28

Slide 28 text

28 Iterative DPO RLHF Workﬂow Fig4より Step 1: 回答生成学習対象のモデルを用いて、入力(Prompt)に対する回答(Response)を n個出力 ※データとしてはPromptのみあれば良い

Slide 29

Slide 29 text

29 Iterative DPO RLHF Workﬂow Fig4より Step 2: 回答ラベル付け得られた回答に対して、 Reward Modelを用いて回答スコアを付与 1番良いものと悪いものを採用し Preference Pair データセットとする

Slide 30

Slide 30 text

30 Iterative DPO RLHF Workﬂow Fig4より Step 3: DPO学習得られたOn-policy Preferenceデータを用いて対象モデルを DPOで学習する。

Slide 31

Slide 31 text

31 PPOでは以下の3 step全てを同一の学習内で行う ● Step1: 回答データの生成 ● Step2: 回答データに対するReward計算 ● Step3: 学習対象モデルの重み更新補足: PPOとの違い RLHF Workﬂow Fig1より Step1 Step2 Step3

Slide 32

Slide 32 text

32 ● PPOは3つのモデル全てを同時に学習時に扱う必要があるため、学習コードが複雑化し、大規模になるほど分散学習の実装難易度も高い ● Iterative DPOでは以下3 Stepを分けて実行できる各Step個別に実装を最適化できる Iterative DPOとPPOの比較 Policy Model Reference Model Reward Model Step1: データの生成 ✔ (eval) Step2: Reward計算 ✔ (eval) Step3: 重み更新 (学習) ✔ (train) ✔ (eval)

Slide 33

Slide 33 text

33 Off-policyおよびOn-policyの双方のデータを活用。 2段階にしてOn-policyのデータを作成し、学習。事後学習: DPOについて PLaMo-100B -SFT DPO1 On-policy Preference Dataset Off-policy Preference Dataset DPO 2 On-policy Preference Dataset Off-policy Preference Dataset PLaMo-100B -DPO

Slide 34

Slide 34 text

34 ● 様々なハイパラ・データで学習された複数モデルのWeightの中間をとることで頑健になることが知られている[Ref Model soups etc] ● LLaMa 3.1でもModel Averagingが採用されている ● 今回はSLERPと呼ばれるアルゴリズムを用いてMergeした事後学習: Model Merge PLaMo-100B -SFT/DPO-1 PLaMo-100B -Instruct Model Merge PLaMo-100B -SFT/DPO-2 PLaMo-100B -SFT/DPO-N …

Slide 35

Slide 35 text

データ合成

Slide 36

Slide 36 text

36 ● 初期の研究: Annotatorを雇って人手で作成 ○ InstructGPT, OpenAssistantなど ● 最近の研究: LLMを用いた合成データで大量の指示学習データを作成 ○ LLaMa 3.1, Nemotron 4 など ○ GENIACでは畠山先生リードのTanukiチームが同様の戦略 ○ PFEでも本アプローチにベットして重点的に取り組んだ指示学習のデータセットはどのように作るのか？様々な試行錯誤に取り組んだうちのいくつかを紹介

Slide 37

Slide 37 text

37 ● 10万件程度の質問応答を生成 ● 小さいモデルでも高品質の出力が出せるようにSelf-Instructを改良 ○ タイトル生成ステップを入れることで多様性を向上するなどデータ合成: PFNで行った取り組み1 タイトル生成質問生成応答生成母の日のプレゼント母の日に送るプレゼントのアイディアをください。母の日に感謝の気持ちを伝えるためのプレゼントとしては花やアクセサリー、美容用品などが挙げられます。...

Slide 38

Slide 38 text

38 ● 指示学習中のPLaMo-100B-Instructを用いて、英語データから日本語データを翻訳生成 ● 様々な公開英語データセットから大量の日本語指示学習データを作成可能データ合成: PFNで行った取り組み２英語データ日本語データ Hello. Why are they going over there? こんにちは。なぜ彼らは向こうに行っているのですか？今後、PLaMoがPLaMoをよくしていくループを構築していきたい

Slide 39

Slide 39 text

Benchmark結果

Slide 40

Slide 40 text

40 日本語ベンチマークで顕著な性能を発揮 Jaster、Rakuda BenchmarkでGPT4超え結果

Slide 41

Slide 41 text

41 Rakuda Benchmarkの応答例 ~ 地理カテゴリ A. 日本で富士山に次ぐ高さの山は、北岳と奥穂高岳となります。それぞれの所在地は以下の通りです。・北岳(きただけ) 南アルプス市にあり、南アルプス (赤石山脈)の最高峰で、標高は 3,193mです。日本百名山、山梨百名山に選定されています。・奥穂高岳(おくほたかだけ) 長野県と岐阜県にまたがる北アルプス (飛騨山脈)最高峰で、標高は3,190mです。こちらも日本百名山、新日本百名山及び花の百名山に選定されています。 Q. 富士山は日本で最も高い山ですが、それに次ぐ高さを誇る山二つを挙げ、それぞれの所在地を記述してください。

Slide 42

Slide 42 text

42 PLaMoの強みと弱み Humanities, Roleplay, Writing等の記述系タスクは良いスコアが出ている 👍 https://arxiv.org/pdf/2410.07563 数学・コーディング・推論能力の向上が課題 ✏ Japanese MT-Benchの評価結果

Slide 43

Slide 43 text

43 補足: 数学・コーディングに強いLLMの開発コーディング・数学などの理系タスクは性質が大きく異なる世界ではコーディング専用モデルの開発が進んでいる　※汎用モデルのLLaMa 3.1でも全体の42%がMath・Coding系のデータを使用日本でのノウハウの蓄積は今後の課題？ Codestral (Mistral AI) Qwen2.5-Coder DeepSeek-Coder-V2 Codex (OpenAI) CodeGemma (Google) CodeLlama (Meta)

Slide 44

Slide 44 text

44 直近の活動: PLaMo Primeのリリース PLaMo Betaからの性能改善点 ● Long Context対応 ○ 4k → 16k入力可能に！ ● RAG用途における性能改善 ● 翻訳用途におけるユーザビリティ向上 ● 詳細はブログをご覧ください ○ PLaMo Primeリリースにおける機能改善 https://www.preferred.jp/ja/news/pr20241202/

Slide 45

Slide 45 text

45 Future work: GENIAC 2.0 ● GENIAC第2サイクルに継続採択 ● 期間: 2024/10 ~ 2025/4 (予定) ● 開発項目 ○ 高品質データ合成に力をいれる ○ 高品質データにより、PLaMo-30BでPLaMo-100Bの性能を達成する ■ 計算コスト・消費電力 1/10 を目指す性能サイズ 100B 30B 8B

Slide 46

Slide 46 text

46 ● ブログ ○ 1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習 ○ 1,000億パラメータの独自LLM「PLaMo-100B」の事後学習が完了 ○ 事後学習でPLaMoのコンテキスト長を4倍の16kにしました ○ PLaMo Primeリリースにおける機能改善 ● 論文 ○ https://arxiv.org/abs/2410.07563 ● Huggingfaceでベースモデルの公開 ○ https://huggingface.co/pfnet/plamo-100b ● PLaMo Prime ○ https://plamo.preferredai.jp/ 関連リンク試してみてください！

Slide 47

Slide 47 text

No content