Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PLaMo-100B-Instruct 国産大規模言語モデル構築における事後学習の取り組み

Preferred Networks
December 20, 2024
450

PLaMo-100B-Instruct 国産大規模言語モデル構築における事後学習の取り組み

グループ会社Preferred Elementsの中郷孝祐が、12月20日に開催された第55回IBISML研究会にて、PLaMo-100Bの事後学習フェーズについて解説しました。
学習パイプライン構築とデータ合成の取り組みについて紹介しています。

Preferred Networks

December 20, 2024
Tweet

More Decks by Preferred Networks

Transcript

  1. 2 • 中郷 孝祐 @corochann • 東京大学大学院 ◦ 量子コンピュータの理論研究(断熱量子計算) •

    Sony EMCS Malaysia ◦ テレビのソフトウェア開発 • Preferred Networks (PFN, PFCC, PFE) ◦ Deep Learningの製造業への応用研究開発 ◦ 超高速汎用原子シミュレーター”Matlantis”の研究開発 →PFCCにて組織立ち上げ・グローバル展開推進 ◦ PFEにて、PLaMo-100B 事後学習の開発&マネジメント • Kaggle 2x Grandmaster (Competitions & Notebooks) 自己紹介
  2. 4 • 1000億パラメータを持つ国産フルスクラッチLLM • Preferred Networksのグループ会社であるPreferred Elementsが開発 • 日本語のデータを重点的に学習しており、日本文化の理解に強みをもつ •

    経済産業省が主導するプロジェクト GENIAC(Generative AI Accelerator Challenge)に採択 計算資源の提供を受けて、 2024/5 ~ 2024/8 に開発を実施 PLaMo-100Bとは PLaMo Prime: https://plamo.preferredai.jp/ PLaMo-100Bをもとに開発した製品 Chat Completion APIやChat UIを提供
  3. ⽇本 (東京駅) イギリス (シティ‧オブ‧ロンドン) アメリカ (サンフランシスコ) 韓国 (ソウル駅) Yahoo! 地図やゼンリン等で競合が多く情報が多い

    インドアマップに対応したビルが多く利便性も⾼い 開発元の国や地域は情報が多い 新機能が最初に公開されインドアマップ等様々な機能が実装されている 競合が少なく情報が少ない インドアマップも空港等の主要な場所のみに限られている 法規制があり情報が少ない インドアマップ、3Dビュー、地域の⾊分け等の多くの機能に対応していない © Google Maps 󰏦 󰑔 󰏅 󰏮 約110件 競争が「ある」場所 競争が「ない」場所 約90件 約40件 約40件
  4. ★ © Google Maps ★ ★ 1 1 東京駅近くの フレンチレストランで

    おすすめを教えて 国産化による違い ChatGPT
  5. ★ 1 ★ 1 ★ 2 © Google Maps 東京駅近くの

    フレンチレストランで おすすめを教えて 国産化による違い ★ 2 ChatGPT
  6. ★ ★ 1 3 ★ 1 ★ 2 ★ 3

    © Google Maps 東京駅近くの フレンチレストランで おすすめを教えて 国産化による違い ★ 2 ChatGPT
  7. 15 • 事前学習: 大規模コーパスを学ぶ ◦ モデルは様々な文法・知識を内部的には理解・獲得しているが、 それを役に立つ形でユーザーが得るのは簡単ではない • 事後学習: 高品質な指示学習データ・Preferenceデータを用いて学ぶ

    ◦ 人間にとって使いやすくなり、アプリケーションとして機能するように 事後学習とはなにか PLaMo-100B 未学習 大規模 コーパス 事前学習 PLaMo-100B -Base 指示学習 (SFT)データ Preferenceデータ 事後学習 PLaMo-100B -Instruct
  8. 16 事後学習の効果 北海道大学へは、札幌駅から徒歩で行くことができます。札幌 駅から北海道大学までは、約1.5キロメートルの距離がありま す。徒歩で行く場合は、約20分程度の時間がかかります 北海道大学に行きたいです、どこの駅から歩いて行けますか? 北海道大学のキャンパスは複数ありますが、メインとなる札幌 キャンパスへの最寄り駅は、札幌市営地下鉄南北線の「北12条 駅」と「北18条駅」で、どちらからも徒歩5~7分程度です。JR札 幌駅からは、北口を出て徒歩10分程度です。

    なお、北海道大学の敷地は広大で、キャンパス内の移動にも時 間がかかる場合があります。また、冬季は積雪や凍結により、 徒歩での移動に通常よりも時間がかかる可能性がありますの で、ご注意ください。 詳しくは、北海道大学の公式ホームページ等でご確認されるこ とをおすすめいたします。 ※ base modelに対しては、事後学習モデル相当の chat_templateを適用して推論した PLaMo-100B-Base PLaMo-100B-Instruct Prompt
  9. 17 事後学習の効果 北海道大学へは、札幌駅から徒歩で行くことができます。札幌 駅から北海道大学までは、約1.5キロメートルの距離がありま す。徒歩で行く場合は、約20分程度の時間がかかります 北海道大学に行きたいです、どこの駅から歩いて行けますか? 北海道大学のキャンパスは複数ありますが、メインとなる札幌 キャンパスへの最寄り駅は、札幌市営地下鉄南北線の「北 12 条駅」と「北

    18条駅」で、どちらからも徒歩5~7分程度です。JR 札幌駅からは、北口を出て徒歩10分程度です。 なお、北海道大学の敷地は広大で、キャンパス内の移動にも時 間がかかる場合があります。また、冬季は積雪や凍結 により、 徒歩での移動に通常よりも時間がかかる可能性がありますの で、ご注意ください。 詳しくは、北海道大学の公式ホームページ等でご確認されるこ とをおすすめいたします。 ※ base modelに対しては、事後学習モデル相当の chat_templateを適用して推論した PLaMo-100B-Base PLaMo-100B-Instruct Prompt 一番有名な札幌駅のみを言及 親切ではない。 所要時間も大間違いではない が、少しずれている。
  10. 18 事後学習の効果 北海道大学へは、札幌駅から徒歩で行くことができます。札幌 駅から北海道大学までは、約1.5キロメートルの距離がありま す。徒歩で行く場合は、約20分程度の時間がかかります 北海道大学に行きたいです、どこの駅から歩いて行けますか? 北海道大学のキャンパスは複数ありますが、メインとなる札幌 キャンパスへの最寄り駅は、札幌市営地下鉄南北線の「北 12 条駅」と「北

    18条駅」で、どちらからも徒歩5~7分程度です。JR 札幌駅からは、北口を出て徒歩10分程度です。 なお、北海道大学の敷地は広大で、キャンパス内の移動にも時 間がかかる場合があります。また、冬季は積雪や凍結 により、 徒歩での移動に通常よりも時間がかかる可能性がありますの で、ご注意ください。 詳しくは、北海道大学の公式ホームページ等でご確認されるこ とをおすすめいたします。 ※ base modelに対しては、事後学習モデル相当の chat_templateを適用して推論した PLaMo-100B-Base PLaMo-100B-Instruct Prompt 徒歩圏内でいける3駅をき ちんと網羅して紹介 北海道大学ならではの特色を 踏まえた有益な追加情報 より確かな最終情報取得方法を提示
  11. 19 事後学習の効果 北海道大学へは、札幌駅から徒歩で行くことができます。札幌 駅から北海道大学までは、約1.5キロメートルの距離がありま す。徒歩で行く場合は、約20分程度の時間がかかります 北海道大学に行きたいです、どこの駅から歩いて行けますか? 北海道大学のキャンパスは複数ありますが、メインとなる札幌 キャンパスへの最寄り駅は、札幌市営地下鉄南北線の「北 12 条駅」と「北

    18条駅」で、どちらからも徒歩5~7分程度です。JR 札幌駅からは、北口を出て徒歩10分程度です。 なお、北海道大学の敷地は広大で、キャンパス内の移動にも時 間がかかる場合があります。また、冬季は積雪や凍結 により、 徒歩での移動に通常よりも時間がかかる可能性がありますの で、ご注意ください。 詳しくは、北海道大学の公式ホームページ等でご確認されるこ とをおすすめいたします。 ※ base modelに対しては、事後学習モデル相当の chat_templateを適用して推論した PLaMo-100B-Base PLaMo-100B-Instruct Prompt 徒歩圏内でいける3駅をき ちんと網羅して紹介 北海道大学ならではの特色を 踏まえた有益な追加情報 より確かな最終情報取得方法を提示 どんなに良い“原石”が事前学習 から得られていても、 適切な“事後学習 を行い“宝石”に磨き込まなければ真価が発揮できない! https://www.ghibli.jp/works/mimi/
  12. 21 SFT、DPOそれぞれを多段で学習し、 さらにModel Mergeにより頑健性の向上を狙う 事後学習のパイプライン SFT1 & 2 PLaMo-100B -Base

    DPO1 & 2 SFT Training Dataset On-policy Preference Dataset Off-policy Preference Dataset PLaMo-100B -Instruct Model Merge 事後学習 (Post-training)
  13. 22 Supervised Fine-tuning (SFT) 事後学習: SFTについて 事前学習 SFT PFNのプロダクト Preferred

    Networks(PFN)は、深層学習などのソフトウェア技術 と計算基盤などのハードウェア技術を独自の方法で組み合わせ、 産業向けソリューションからコンシューマー向けサービスまで幅広 く業界をまたがるプロダクトを開発・提供しています。 研究開発中のプロジェクト、プロセッサーやスーパーコンピュータ などの計算基盤、PFNが開発に関わる各種オープンソースソフト ウェアについてはProjectsをご覧ください。 文章全てに対して次の単語を 予測して学習 以下はタスクを説明する指示で、文脈を説明した入力とペアになっ ています。以下はタスクを説明する指示で、文脈を説明した入力と ペアになっています。 ## 指示: PFNのプロダクトについて教えてください。 ## 応答: Preferred Networks(PFN)は、深層学習などのソフトウェア技術 と計算基盤などのハードウェア技術を独自の方法で組み合わせ、 産業向けソリューションからコンシューマー向けサービスまで幅広 く業界をまたがるプロダクトを開発・提供しています。 ユーザーの質問 とLLMによる応答 部分で構成し、応答部分のみ学習 PLaMo-13Bで使われたAlpaca Formatの例 応答部分のみ学習 全体を学習
  14. 24 Direct Preference Optimization (DPO) [Rafailov et al, 2024] 事後学習:

    DPOについて DPO 好ましい回答 chosenと質の悪い回答rejectedのペアからなるデータセット(Preference Dataset) で学習を進める。chosenの生成確率を上げ、rejectedの生成確率を下げる ように学習する。 負例について学べる ところがSFTとの大きな違いの一つ。 以下はタスクを説明する指示で、文脈を説明した入力とペアになっています。以下はタスクを説明する指示で、文脈を説明した入力とペアになって います。 ## 指示: PFNのプロダクトについて教えてください。 chosen rejected prompt ## 応答: PFNの住所は東京都千代田区大手町1-6-1大手町ビルです。 ## 応答: Preferred Networks(PFN)は、深層学習などのソフトウェア技術と計 算基盤などのハードウェア技術を独自の方法で組み合わせ、産業向け ソリューションからコンシューマー向けサービスまで幅広く業界をまたが るプロダクトを開発・提供しています。
  15. 25 PPO • DPOロスを最小化するPolicy π θ は、 PPOアルゴリズムでの最適なPolicy π θ

    と理論的には一致する 事後学習: DPOのロス 数式などは Rafailov et al, 2024より DPO 第1項: Reward を最大化を目指す。 Reward Model r φ が必要 第2項: Reference Policy π ref から離れすぎないように KL正則化 ロスを計算してFine-tuningを行う学習方式で学習可能 - π ref から離れすぎないようにしつつ、 y w の尤度を増やし、y l の尤度を減らすように学習 y w , y l というペアさえあれば、 Reward Modelは学習時に不要 Instruct-GPTにて OpenAIがRLHFで 用いていた強化学習手法
  16. 28 Iterative DPO RLHF Workflow Fig4より Step 1: 回答生成 学習対象のモデルを用いて、

    入力(Prompt)に対する 回答(Response)を n個 出力 ※データとしてはPromptのみあれば良い
  17. 29 Iterative DPO RLHF Workflow Fig4より Step 2: 回答ラベル付け 得られた回答に対して、

    Reward Modelを用いて回答スコアを付与 1番良いものと悪いものを採用し Preference Pair データセットとする
  18. 30 Iterative DPO RLHF Workflow Fig4より Step 3: DPO学習 得られたOn-policy

    Preferenceデータを 用いて対象モデルを DPOで学習する。
  19. 31 PPOでは以下の3 step全てを同一の学習内で行う • Step1: 回答データの生成 • Step2: 回答データに対するReward計算 •

    Step3: 学習対象モデルの重み更新 補足: PPOとの違い RLHF Workflow Fig1より Step1 Step2 Step3
  20. 34 • 様々なハイパラ・データで学習された複数モデルのWeightの中間をとることで頑健に なることが知られている[Ref Model soups etc] • LLaMa 3.1でもModel

    Averagingが採用されている • 今回はSLERPと呼ばれるアルゴリズムを用いてMergeした 事後学習: Model Merge PLaMo-100B -SFT/DPO-1 PLaMo-100B -Instruct Model Merge PLaMo-100B -SFT/DPO-2 PLaMo-100B -SFT/DPO-N …
  21. 36 • 初期の研究: Annotatorを雇って人手で作成 ◦ InstructGPT, OpenAssistantなど • 最近の研究: LLMを用いた合成データで大量の指示学習データを作成

    ◦ LLaMa 3.1, Nemotron 4 など ◦ GENIACでは畠山先生リードのTanukiチームが同様の戦略 ◦ PFEでも本アプローチにベットして重点的に取り組んだ 指示学習のデータセットはどのように作るのか? 様々な試行錯誤に取り組んだうちのいくつかを紹介
  22. 37 • 10万件程度の質問応答を生成 • 小さいモデルでも高品質の出力が出せるようにSelf-Instructを改良 ◦ タイトル生成ステップを入れることで多様性を向上するなど データ合成: PFNで行った取り組み1 タイトル生成

    質問生成 応答生成 母の日のプレゼント 母の日に送るプレゼントのアイディアをください。 母の日に感謝の気持ちを伝えるためのプレゼントと しては花やアクセサリー、美容用品などが挙げられ ます。...
  23. 41 Rakuda Benchmarkの応答例 ~ 地理カテゴリ A. 日本で富士山に次ぐ高さの山は、北岳と奥穂高岳となります。それぞれの所在地は以下の通りです。 ・北岳(きただけ) 南アルプス市にあり、南アルプス (赤石山脈)の最高峰で、標高は

    3,193mです。日本百名山、山梨百名山に選 定されています。 ・奥穂高岳(おくほたかだけ) 長野県と岐阜県にまたがる北アルプス (飛騨山脈)最高峰で、標高は3,190mです。こちらも日本百名山、新日本 百名山及び花の百名山に選定されています。 Q. 富士山は日本で最も高い山ですが、それに次ぐ高さを誇る山二つを挙げ、それぞれの所在地を記述してく ださい。
  24. 44 直近の活動: PLaMo Primeのリリース PLaMo Betaからの性能改善点 • Long Context対応 ◦

    4k → 16k入力可能に! • RAG用途における性能改善 • 翻訳用途におけるユーザビリティ向上 • 詳細はブログをご覧ください ◦ PLaMo Primeリリースにおける機能改善 https://www.preferred.jp/ja/news/pr20241202/
  25. 45 Future work: GENIAC 2.0 • GENIAC第2サイクルに継続採択 • 期間: 2024/10

    ~ 2025/4 (予定) • 開発項目 ◦ 高品質データ合成に力をいれる ◦ 高品質データにより、PLaMo-30BでPLaMo-100Bの性能を達成する ▪ 計算コスト・消費電力 1/10 を目指す 性能 サイズ 100B 30B 8B
  26. 46 • ブログ ◦ 1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習 ◦ 1,000億パラメータの独自LLM「PLaMo-100B」の事後学習が完了 ◦ 事後学習でPLaMoのコンテキスト長を4倍の16kにしました ◦

    PLaMo Primeリリースにおける機能改善 • 論文 ◦ https://arxiv.org/abs/2410.07563 • Huggingfaceでベースモデルの公開 ◦ https://huggingface.co/pfnet/plamo-100b • PLaMo Prime ◦ https://plamo.preferredai.jp/ 関連リンク 試してみてください!