PLaMo-100B-Instruct 国産大規模言語モデル構築における事後学習の取り組み

PLaMo-100B-Instruct 国産大規模言語モデル構築における事後学習の取り組み株式会社 Preferred Elements 中郷孝祐

2 • 中郷孝祐 @corochann • 東京大学大学院 ◦ 量子コンピュータの理論研究(断熱量子計算) •
Sony EMCS Malaysia ◦ テレビのソフトウェア開発 • Preferred Networks (PFN, PFCC, PFE) ◦ Deep Learningの製造業への応用研究開発 ◦ 超高速汎用原子シミュレーター”Matlantis”の研究開発 →PFCCにて組織立ち上げ・グローバル展開推進 ◦ PFEにて、PLaMo-100B 事後学習の開発&マネジメント • Kaggle 2x Grandmaster (Competitions & Notebooks) 自己紹介

国産フルスクラッチ LLM PLaMo-100B

4 • 1000億パラメータを持つ国産フルスクラッチLLM • Preferred Networksのグループ会社であるPreferred Elementsが開発 • 日本語のデータを重点的に学習しており、日本文化の理解に強みをもつ •
経済産業省が主導するプロジェクト GENIAC（Generative AI Accelerator Challenge）に採択計算資源の提供を受けて、 2024/5 ~ 2024/8 に開発を実施 PLaMo-100Bとは PLaMo Prime: https://plamo.preferredai.jp/ PLaMo-100Bをもとに開発した製品 Chat Completion APIやChat UIを提供

5 海外で開発されているFrontier Modelは英語のデータがメインとなっている • 例えばCommonCrawlでは、その約半分が英語のデータであり、日本語のデータは6% 以下である (https://en.wikipedia.org/wiki/Common_Crawl) • こういったデータで学習されたLLMは英語でのPerformanceがよい •
PLaMoは学習データに日本語データを重点的に入れることで、日本語・日本固有の知識に強いLLMを構築することを目指すなぜ国産モデルが必要か？ 🇸 🇵 🇸 🇵 海外製LLM

6 日本が自国で生成AI基盤モデルを開発できないと、、、日本固有の文化・法律・倫理観を反映したアプリケーションの開発に対して自国での研究開発コントロールができず、世界との競争力を失う。想定される事例 • 国内の法令、社名変更、etc…が対応されず、汎用的に活用できない • 書籍・商品等の情報が十分に蓄積されず国内の文化が失われる •
国内の地理情報が十分に活用されず利便性が向上しない日本固有の文化・法律・倫理観などを理解した国産 LLMの開発は、日本の産業力の強化および文化資産の維持にとって不可欠である。なぜ国産モデルが必要か？

⽇本 (東京駅) イギリス (シティ‧オブ‧ロンドン) アメリカ (サンフランシスコ) 韓国 (ソウル駅) Yahoo! 地図やゼンリン等で競合が多く情報が多い
インドアマップに対応したビルが多く利便性も⾼い開発元の国や地域は情報が多い新機能が最初に公開されインドアマップ等様々な機能が実装されている競合が少なく情報が少ないインドアマップも空港等の主要な場所のみに限られている法規制があり情報が少ないインドアマップ、3Dビュー、地域の⾊分け等の多くの機能に対応していない © Google Maps 󰏦 󰑔 󰏅 󰏮 約110件競争が「ある」場所競争が「ない」場所約90件約40件約40件

　　　　 vs ChatGPT © Google Maps 東京駅近くのフレンチレストランでおすすめを教えて国産化による違い

★ © Google Maps ★ ★ 1 1 東京駅近くのフレンチレストランで
おすすめを教えて国産化による違い ChatGPT

★ 1 ★ 1 ★ 2 © Google Maps 東京駅近くの
フレンチレストランでおすすめを教えて国産化による違い ★ 2 ChatGPT

★ ★ 1 3 ★ 1 ★ 2 ★ 3
© Google Maps 東京駅近くのフレンチレストランでおすすめを教えて国産化による違い ★ 2 ChatGPT

事後学習とは

15 • 事前学習: 大規模コーパスを学ぶ ◦ モデルは様々な文法・知識を内部的には理解・獲得しているが、それを役に立つ形でユーザーが得るのは簡単ではない • 事後学習: 高品質な指示学習データ・Preferenceデータを用いて学ぶ
◦ 人間にとって使いやすくなり、アプリケーションとして機能するように事後学習とはなにか PLaMo-100B 未学習大規模コーパス事前学習 PLaMo-100B -Base 指示学習 (SFT)データ Preferenceデータ事後学習 PLaMo-100B -Instruct

16 事後学習の効果北海道大学へは、札幌駅から徒歩で行くことができます。札幌駅から北海道大学までは、約1.5キロメートルの距離があります。徒歩で行く場合は、約20分程度の時間がかかります北海道大学に行きたいです、どこの駅から歩いて行けますか？北海道大学のキャンパスは複数ありますが、メインとなる札幌キャンパスへの最寄り駅は、札幌市営地下鉄南北線の「北12条駅」と「北18条駅」で、どちらからも徒歩5～7分程度です。JR札幌駅からは、北口を出て徒歩10分程度です。
なお、北海道大学の敷地は広大で、キャンパス内の移動にも時間がかかる場合があります。また、冬季は積雪や凍結により、徒歩での移動に通常よりも時間がかかる可能性がありますので、ご注意ください。詳しくは、北海道大学の公式ホームページ等でご確認されることをおすすめいたします。 ※ base modelに対しては、事後学習モデル相当の chat_templateを適用して推論した PLaMo-100B-Base PLaMo-100B-Instruct Prompt

17 事後学習の効果北海道大学へは、札幌駅から徒歩で行くことができます。札幌駅から北海道大学までは、約1.5キロメートルの距離があります。徒歩で行く場合は、約20分程度の時間がかかります北海道大学に行きたいです、どこの駅から歩いて行けますか？北海道大学のキャンパスは複数ありますが、メインとなる札幌キャンパスへの最寄り駅は、札幌市営地下鉄南北線の「北 12 条駅」と「北
18条駅」で、どちらからも徒歩5～7分程度です。JR 札幌駅からは、北口を出て徒歩10分程度です。なお、北海道大学の敷地は広大で、キャンパス内の移動にも時間がかかる場合があります。また、冬季は積雪や凍結により、徒歩での移動に通常よりも時間がかかる可能性がありますので、ご注意ください。詳しくは、北海道大学の公式ホームページ等でご確認されることをおすすめいたします。 ※ base modelに対しては、事後学習モデル相当の chat_templateを適用して推論した PLaMo-100B-Base PLaMo-100B-Instruct Prompt 一番有名な札幌駅のみを言及親切ではない。所要時間も大間違いではないが、少しずれている。

18条駅」で、どちらからも徒歩5～7分程度です。JR 札幌駅からは、北口を出て徒歩10分程度です。なお、北海道大学の敷地は広大で、キャンパス内の移動にも時間がかかる場合があります。また、冬季は積雪や凍結により、徒歩での移動に通常よりも時間がかかる可能性がありますので、ご注意ください。詳しくは、北海道大学の公式ホームページ等でご確認されることをおすすめいたします。 ※ base modelに対しては、事後学習モデル相当の chat_templateを適用して推論した PLaMo-100B-Base PLaMo-100B-Instruct Prompt 徒歩圏内でいける３駅をきちんと網羅して紹介北海道大学ならではの特色を踏まえた有益な追加情報より確かな最終情報取得方法を提示

18条駅」で、どちらからも徒歩5～7分程度です。JR 札幌駅からは、北口を出て徒歩10分程度です。なお、北海道大学の敷地は広大で、キャンパス内の移動にも時間がかかる場合があります。また、冬季は積雪や凍結により、徒歩での移動に通常よりも時間がかかる可能性がありますので、ご注意ください。詳しくは、北海道大学の公式ホームページ等でご確認されることをおすすめいたします。 ※ base modelに対しては、事後学習モデル相当の chat_templateを適用して推論した PLaMo-100B-Base PLaMo-100B-Instruct Prompt 徒歩圏内でいける３駅をきちんと網羅して紹介北海道大学ならではの特色を踏まえた有益な追加情報より確かな最終情報取得方法を提示どんなに良い“原石”が事前学習から得られていても、適切な“事後学習を行い“宝石”に磨き込まなければ真価が発揮できない！ https://www.ghibli.jp/works/mimi/

PLaMo-100Bの事後学習

21 SFT、DPOそれぞれを多段で学習し、さらにModel Mergeにより頑健性の向上を狙う事後学習のパイプライン SFT1 & 2 PLaMo-100B -Base
DPO1 & 2 SFT Training Dataset On-policy Preference Dataset Oﬀ-policy Preference Dataset PLaMo-100B -Instruct Model Merge 事後学習 (Post-training)

22 Supervised Fine-tuning (SFT) 事後学習: SFTについて事前学習 SFT PFNのプロダクト Preferred
Networks(PFN)は、深層学習などのソフトウェア技術と計算基盤などのハードウェア技術を独自の方法で組み合わせ、産業向けソリューションからコンシューマー向けサービスまで幅広く業界をまたがるプロダクトを開発・提供しています。研究開発中のプロジェクト、プロセッサーやスーパーコンピュータなどの計算基盤、PFNが開発に関わる各種オープンソースソフトウェアについてはProjectsをご覧ください。文章全てに対して次の単語を予測して学習以下はタスクを説明する指示で、文脈を説明した入力とペアになっています。以下はタスクを説明する指示で、文脈を説明した入力とペアになっています。 ## 指示: PFNのプロダクトについて教えてください。 ## 応答: Preferred Networks(PFN)は、深層学習などのソフトウェア技術と計算基盤などのハードウェア技術を独自の方法で組み合わせ、産業向けソリューションからコンシューマー向けサービスまで幅広く業界をまたがるプロダクトを開発・提供しています。ユーザーの質問とLLMによる応答部分で構成し、応答部分のみ学習 PLaMo-13Bで使われたAlpaca Formatの例応答部分のみ学習全体を学習

23 事後学習: SFTについて実験を通して数学系の回答品質向上が難しいことが判明。かなり多くのデータを入れないと、回答品質が上がらない。前段で数学系データを重点的に学習させることに SFT1 PLaMo-100B -Base
SFT Math Training Dataset SFT 2 SFT General Training Dataset PLaMo-100B -SFT Nemotron 4 https://arxiv.org/pdf/2406.11704 より

24 Direct Preference Optimization (DPO) [Rafailov et al, 2024] 事後学習:
DPOについて DPO 好ましい回答 chosenと質の悪い回答rejectedのペアからなるデータセット(Preference Dataset) で学習を進める。chosenの生成確率を上げ、rejectedの生成確率を下げるように学習する。負例について学べるところがSFTとの大きな違いの一つ。以下はタスクを説明する指示で、文脈を説明した入力とペアになっています。以下はタスクを説明する指示で、文脈を説明した入力とペアになっています。 ## 指示: PFNのプロダクトについて教えてください。 chosen rejected prompt ## 応答: PFNの住所は東京都千代田区大手町1-6-1大手町ビルです。 ## 応答: Preferred Networks(PFN)は、深層学習などのソフトウェア技術と計算基盤などのハードウェア技術を独自の方法で組み合わせ、産業向けソリューションからコンシューマー向けサービスまで幅広く業界をまたがるプロダクトを開発・提供しています。

25 PPO • DPOロスを最小化するPolicy π θ は、 PPOアルゴリズムでの最適なPolicy π θ
と理論的には一致する事後学習: DPOのロス数式などは Rafailov et al, 2024より DPO 第1項: Reward を最大化を目指す。 Reward Model r φ が必要第2項: Reference Policy π ref から離れすぎないように KL正則化ロスを計算してFine-tuningを行う学習方式で学習可能 - π ref から離れすぎないようにしつつ、 y w の尤度を増やし、y l の尤度を減らすように学習 y w , y l というペアさえあれば、 Reward Modelは学習時に不要 Instruct-GPTにて OpenAIがRLHFで用いていた強化学習手法

26 On-policyのデータを何度も活用することが重要[RLHF Workflow] 事後学習: On-policyデータとOff-policyデータ Off-policy: 人手で作成したデータなど On-policy: 学習対象のLLMで生成した文章に、正例・負例のラベルをつける

27 Iterative DPO RLHF Workﬂow Fig4より

28 Iterative DPO RLHF Workﬂow Fig4より Step 1: 回答生成学習対象のモデルを用いて、
入力(Prompt)に対する回答(Response)を n個出力 ※データとしてはPromptのみあれば良い

29 Iterative DPO RLHF Workﬂow Fig4より Step 2: 回答ラベル付け得られた回答に対して、
Reward Modelを用いて回答スコアを付与 1番良いものと悪いものを採用し Preference Pair データセットとする

30 Iterative DPO RLHF Workﬂow Fig4より Step 3: DPO学習得られたOn-policy
Preferenceデータを用いて対象モデルを DPOで学習する。

31 PPOでは以下の3 step全てを同一の学習内で行う • Step1: 回答データの生成 • Step2: 回答データに対するReward計算 •
Step3: 学習対象モデルの重み更新補足: PPOとの違い RLHF Workﬂow Fig1より Step1 Step2 Step3

32 • PPOは3つのモデル全てを同時に学習時に扱う必要があるため、学習コードが複雑化し、大規模になるほど分散学習の実装難易度も高い • Iterative DPOでは以下3 Stepを分けて実行できる各Step個別に実装を最適化できる Iterative
DPOとPPOの比較 Policy Model Reference Model Reward Model Step1: データの生成 ✔ (eval) Step2: Reward計算 ✔ (eval) Step3: 重み更新 (学習) ✔ (train) ✔ (eval)

33 Off-policyおよびOn-policyの双方のデータを活用。 2段階にしてOn-policyのデータを作成し、学習。事後学習: DPOについて PLaMo-100B -SFT DPO1 On-policy Preference
Dataset Off-policy Preference Dataset DPO 2 On-policy Preference Dataset Off-policy Preference Dataset PLaMo-100B -DPO

34 • 様々なハイパラ・データで学習された複数モデルのWeightの中間をとることで頑健になることが知られている[Ref Model soups etc] • LLaMa 3.1でもModel
Averagingが採用されている • 今回はSLERPと呼ばれるアルゴリズムを用いてMergeした事後学習: Model Merge PLaMo-100B -SFT/DPO-1 PLaMo-100B -Instruct Model Merge PLaMo-100B -SFT/DPO-2 PLaMo-100B -SFT/DPO-N …

データ合成

36 • 初期の研究: Annotatorを雇って人手で作成 ◦ InstructGPT, OpenAssistantなど • 最近の研究: LLMを用いた合成データで大量の指示学習データを作成
◦ LLaMa 3.1, Nemotron 4 など ◦ GENIACでは畠山先生リードのTanukiチームが同様の戦略 ◦ PFEでも本アプローチにベットして重点的に取り組んだ指示学習のデータセットはどのように作るのか？様々な試行錯誤に取り組んだうちのいくつかを紹介

37 • 10万件程度の質問応答を生成 • 小さいモデルでも高品質の出力が出せるようにSelf-Instructを改良 ◦ タイトル生成ステップを入れることで多様性を向上するなどデータ合成: PFNで行った取り組み1 タイトル生成
質問生成応答生成母の日のプレゼント母の日に送るプレゼントのアイディアをください。母の日に感謝の気持ちを伝えるためのプレゼントとしては花やアクセサリー、美容用品などが挙げられます。...

38 • 指示学習中のPLaMo-100B-Instructを用いて、英語データから日本語データを翻訳生成 • 様々な公開英語データセットから大量の日本語指示学習データを作成可能データ合成: PFNで行った取り組み２英語データ日本語データ
Hello. Why are they going over there? こんにちは。なぜ彼らは向こうに行っているのですか？今後、PLaMoがPLaMoをよくしていくループを構築していきたい

Benchmark結果

40 日本語ベンチマークで顕著な性能を発揮 Jaster、Rakuda BenchmarkでGPT4超え結果

41 Rakuda Benchmarkの応答例 ~ 地理カテゴリ A. 日本で富士山に次ぐ高さの山は、北岳と奥穂高岳となります。それぞれの所在地は以下の通りです。・北岳(きただけ) 南アルプス市にあり、南アルプス (赤石山脈)の最高峰で、標高は
3,193mです。日本百名山、山梨百名山に選定されています。・奥穂高岳(おくほたかだけ) 長野県と岐阜県にまたがる北アルプス (飛騨山脈)最高峰で、標高は3,190mです。こちらも日本百名山、新日本百名山及び花の百名山に選定されています。 Q. 富士山は日本で最も高い山ですが、それに次ぐ高さを誇る山二つを挙げ、それぞれの所在地を記述してください。

42 PLaMoの強みと弱み Humanities, Roleplay, Writing等の記述系タスクは良いスコアが出ている 👍 https://arxiv.org/pdf/2410.07563 数学・コーディング・推論能力の向上が課題 ✏ Japanese
MT-Benchの評価結果

43 補足: 数学・コーディングに強いLLMの開発コーディング・数学などの理系タスクは性質が大きく異なる世界ではコーディング専用モデルの開発が進んでいる　※汎用モデルのLLaMa 3.1でも全体の42%がMath・Coding系のデータを使用日本でのノウハウの蓄積は今後の課題？ Codestral (Mistral
AI) Qwen2.5-Coder DeepSeek-Coder-V2 Codex (OpenAI) CodeGemma (Google) CodeLlama (Meta)

44 直近の活動: PLaMo Primeのリリース PLaMo Betaからの性能改善点 • Long Context対応 ◦
4k → 16k入力可能に！ • RAG用途における性能改善 • 翻訳用途におけるユーザビリティ向上 • 詳細はブログをご覧ください ◦ PLaMo Primeリリースにおける機能改善 https://www.preferred.jp/ja/news/pr20241202/

45 Future work: GENIAC 2.0 • GENIAC第2サイクルに継続採択 • 期間: 2024/10
~ 2025/4 (予定) • 開発項目 ◦ 高品質データ合成に力をいれる ◦ 高品質データにより、PLaMo-30BでPLaMo-100Bの性能を達成する ▪ 計算コスト・消費電力 1/10 を目指す性能サイズ 100B 30B 8B

46 • ブログ ◦ 1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習 ◦ 1,000億パラメータの独自LLM「PLaMo-100B」の事後学習が完了 ◦ 事後学習でPLaMoのコンテキスト長を4倍の16kにしました ◦
PLaMo Primeリリースにおける機能改善 • 論文 ◦ https://arxiv.org/abs/2410.07563 • Huggingfaceでベースモデルの公開 ◦ https://huggingface.co/pfnet/plamo-100b • PLaMo Prime ◦ https://plamo.preferredai.jp/ 関連リンク試してみてください！

PLaMo-100B-Instruct 国産大規模言語モデル構築における事後学習の取り組み

PLaMo-100B-Instruct 国産大規模言語モデル構築における事後学習の取り組み

More Decks by Preferred Networks

Featured

Transcript