PLaMoの事後学習を支える技術 / PFN LLMセミナー

Preferred Networks LLM開発事後学習チーム Engineering Manager 中鉢魁三郎 PLaMoの事後学習を支える技術 2025/10/1
PFN LLMセミナー 1

事後学習とは 2

事後学習という用語について 3 事前学習 Pre-training 事後学習 Post-training 先に事前学習という言葉があり、その後に行うフェーズなので事後学習と呼ばれるようになった

なぜ事後学習を行うのか 4 LLM は与えられた文章の次の Token の分布を出力することを繰り返して文章の生成を行う → 応用上の価値を最大化するような分布を出力させたい事前学習 Pre-training
事後学習 Post-training 目標：大規模な訓練コーパスをよく予測する目標：生成結果の価値を最大化する e.g. Chat QA: 有益・正確・無害な回答をする Token Token

事後学習を支える技術 5

今日のスコープ 6 事前学習事後学習推論最適化 PLaMo API PLaMo 翻訳 PreferredAI
賢く文章が予測できる Chat などで人の役に立つ様々な計算環境で高速に動作する Preferred Networks（PFN）は深層学習などの最先端の技術を最短路で実用化することで、これまで解決が困難であった現実世界の課題解決を目指しています。 PFN について教えて PFN は日本・東京に拠点を置く、... LLM 開発を行う部署ソリューション・製品開発を行う部署 … 汎用モデルとしての LLM の事後学習フェーズ (≒ 事後学習チームのスコープ) について紹介 → ドメイン特化のための継続事前学習などはスコープ外 + Vision, Research, Application PFN における LLM 開発の全体像

事後学習の流れ 7 データ生成・訓練・評価が基本的なステップデータ生成訓練評価定量・定性評価の Feedback をもとに各プロセスを改善していく

訓練主に、SFT, DPO, RL が用いられる。価値の最大化へのアプローチの違い • SFT (Supervised Fine-Tuning) ◦
モデルに望む回答例 (≒ 価値の高い回答の例) を教師として学習を行う • DPO (Direct Preference Optimization) ◦ 同じ質問への2つの回答例のどちらが好ましいか (≒ どちらが価値が高いか) を教師として、モデルがより好ましい回答をするように促す • RL (Reinforcement Learning) ◦ 出力の良し悪し (≒ 価値) を測る報酬モデルを用いて、常に新しい出力を試しながらモデルを改善していく PLaMo の事後学習ではこれまで主に SFT, DPO を利用していたが、RL の活用も進めている

例：Function Calling に関する SFT 基礎的な Function Calling 能力を鍛えるのに SFT を活用している
• SFT のデータセットが一度手に入れれば、Function Calling を実行する環境を用意する必要がない • 1 ~ 数 Turn 程度の Function Calling であれば、正解が明確で SFT でも対応しやすい tools = [{ "type": "function", "function": {"name": "get_weather", …} }] messages = [ {"role": "user", "content": "What's the temperature in Tokyo?"}, {"role": "assistant", "content": '[get_weather(city="Tokyo")]'}, {"role": "tool", "content": '[{"response": {"temperature": 33, "unit": "celsius"}}]'}, {"role": "assistant", "content": "The temperature in tokyo is 33 degree in celsius"}, ] {"role": "assistant", "content": "[]"} Guided decoding に対応するため、自然文での応答の一部を Function Calling しないことを意味する json "[]" で置き換えている Function Calling 用 SFT データセットの例

LLM ベースの報酬モデルおよびベンチマークの作成 DPO, RL への活用を見据えて、報酬モデルの作成についても検討を進めている (今夏のインターン) • PLaMo 翻訳を活用して英語ベンチマーク (RewardBench2)
の日本語版を作成 • PLaMo 2.1 8B を用いた報酬モデルの学習翻訳した RewardBench2 での既存モデル (Skywork Reward V2) の評価結果

Reinforcement Learning with Veriﬁable Rewards (RLVR) RL において、報酬モデルは作成が難しく、高度な報酬モデルは計算コストも大きい → 最終的な回答の正誤判定が容易なタスクを対象に
RL を行うことで報酬モデルが簡略化できる • 数学：最終的な回答があっていれば OK • Coding：テストが通るようになれば OK • 指示追従：文字数や言語指定などの表層的な指示は用意に判定できる Agentic なタスクなども含めると適用範囲は広く、多くの最新モデルで利用されている Tulu 3, Lambert et al., 2024 より引用 huggingface trl や vLLM を用いて実装

モデルマージ開発の様々なフェーズでモデルマージを活用 • データセットやハイパラが異なるモデルをマージし性能を向上させる • データセットの開発時に、すべての訓練フェーズをやり直すのではなく、Expert モデルを作ってモデルマージしたものを評価することで開発効率を向上する PLaMo 2.0
Prime の学習フローデータセット開発時のモデルマージの活用これらのモデルを評価することでデータセットの良さを検証する

データ作成 15 Long-Context 長いテキストからうまく情報を抽出して活用できる Instruction Following 複雑な指示もきちんと守れるようにする
Function Calling 与えられた関数を活用して能動的に問題を解く Hallucination Mitigation ハルシネーションを抑制する Reasoning 複雑な問題を論理的に解き進める Safety 言ってはいけないことを言わない実応用で要求される能力は多岐に渡る → 様々なタスクのデータを作成していく

LLM を用いたデータ生成 16 人手で作成した高品質なデータセットに加えて、LLM を用いた合成データも活用している様々なデータセットからの抽出 LLM を用いた Prompt の生成
トピックの生成 Prompt の生成 LLM を用いた回答の生成 Filtering Prompt の抽出 e.g. Chatbot Arena User Prompt Permissive なライセンスのモデルを利用 Prompt の生成実運用時に近い多様な Prompt 様々な方法でトピックを作成して多様化する一つの Prompt から複数生成することも SFT, DPO で利用

例：Reasoning モデル向け SFT データの作成 17 Reasoning 過程を含む SFT データセットの作成に関していくつかのアプローチを検討中 •
Permissive なライセンスのモデルで合成した Reasoning 過程を利用する • 高品質な Prompt と回答から、その回答に繋がる Reasoning 過程を作成する ◦ e.g. Reverse-Engineered Reasoning [ByteDance, Wang+ 2025] ▪ 回答が生成される確率が高まる Reasoning を探索する [ByteDance, Wang+ 2025] より引用

データ作成基盤 18 kubernetes と Argo workﬂows を用いて Scalable な生成を実現生成
生成集約 Load Balancer vLLM vLLM vLLM Deployment 集約集約生成 Pending が少ない Pod を優先ノード数を増減 Preemptible

様々なベンチマークで継続的に評価。ベンチマークの追加も日々行っている評価 20 Long-Context Phonebook, LongBench v1/v2 Instruction Following IFEval,
M-IFEval, IFBench Function Calling BFCL v2/v3 Hallucination Mitigation HHEM Score on WMT22 / dialogsum / SQuAD 2.0 Math Reasoning MATH-500, AIME Safety AnswerCarefully 日本語能力 Jaster, Japanese MTBench, ELYZA-Tasks-100, pfgen Private Benchmarks 社内の product や solution で求められる指標 RAG RAGBench, ChatRAG-Bench

指示追従性の評価：M-IFEval 21 LLM の指示追従 (Instruction-Following) 能力を測るベンチマークとして M-IFEval を活用している評価対象は機械的に判定可能な指示： •
文字数の指示：「600文字以上で答えてください」 • 句読点の指示：「応答全体で句点「。」を用いずに、番号付きリストの形で説明してください」他のベンチマークを用いたより広範な指示追従性の向上も進めている PLaMo 2.1 8B の M-IFEval 性能 PLaMo 2 31B の M-IFEval 性能

Chat性能の評価：ELYZA-tasks-100 22 Chat での問題解決の性能を評価するため、Japanese MTBench や ELYZA-task-100 での評価も実行生成 +
LLM-as-a-Judge での評価は両方のフェーズでランダム性があるため複数回実行して確認 PLaMo 2.1 8B の ELYZA-tasks-100 性能 PLaMo 2 31B の ELYZA-tasks-100 性能

評価ワークフロー 23 Argo workﬂows の DAG を使って全ベンチマーク並列で生成を実行する生成生成評価
vLLM 評価評価生成 MTBench IFEval LongBench

LLM の事後学習の各ステップで使われている技術について紹介まとめデータ生成 LLM を活用した生成訓練 SFT, DPO, RL
評価様々なベンチマーク今後について • PLaMo 2 や後続モデルの事後学習を行っていく ◦ 汎用モデルに限らず PLaMo 翻訳のような特化モデルの開発も進める • 事後学習チーム自体も拡大予定 ◦ 世界的にも事後学習は大規模化している ◦ 絶賛採用中！事後学習チーム採用情報 27新卒プレエントリー

PLaMoの事後学習を支える技術 / PFN LLMセミナー

PLaMoの事後学習を支える技術 / PFN LLMセミナー

Preferred Networks PRO

More Decks by Preferred Networks

Other Decks in Technology

Featured

Transcript

Preferred Networks LLM開発事後学習チーム Engineering Manager 中鉢魁三郎 PLaMoの事後学習を支える技術 2025/10/1

事後学習とは 2

事後学習という用語について 3 事前学習 Pre-training 事後学習 Post-training 先に事前学習という言葉があり、その後に行うフェーズなので事後学習と呼ばれるようになった

なぜ事後学習を行うのか 4 LLM は与えられた文章の次の Token の分布を出力することを繰り返して文章の生成を行う → 応用上の価値を最大化するような分布を出力させたい事前学習 Pre-training

事後学習を支える技術 5

今日のスコープ 6 事前学習事後学習推論最適化 PLaMo API PLaMo 翻訳 PreferredAI

事後学習の流れ 7 データ生成・訓練・評価が基本的なステップデータ生成訓練評価定量・定性評価の Feedback をもとに各プロセスを改善していく

事後学習の流れ 8 データ生成・訓練・評価が基本的なステップデータ生成訓練評価定量・定性評価の Feedback をもとに各プロセスを改善していく

訓練主に、SFT, DPO, RL が用いられる。価値の最大化へのアプローチの違い • SFT (Supervised Fine-Tuning) ◦

例：Function Calling に関する SFT 基礎的な Function Calling 能力を鍛えるのに SFT を活用している

LLM ベースの報酬モデルおよびベンチマークの作成 DPO, RL への活用を見据えて、報酬モデルの作成についても検討を進めている (今夏のインターン) • PLaMo 翻訳を活用して英語ベンチマーク (RewardBench2)

Reinforcement Learning with Veriﬁable Rewards (RLVR) RL において、報酬モデルは作成が難しく、高度な報酬モデルは計算コストも大きい → 最終的な回答の正誤判定が容易なタスクを対象に

事後学習の流れ 14 データ生成・訓練・評価が基本的なステップデータ生成訓練評価定量・定性評価の Feedback をもとに各プロセスを改善していく

データ作成 15 Long-Context 長いテキストからうまく情報を抽出して活用できる Instruction Following 複雑な指示もきちんと守れるようにする

LLM を用いたデータ生成 16 人手で作成した高品質なデータセットに加えて、LLM を用いた合成データも活用している様々なデータセットからの抽出 LLM を用いた Prompt の生成

例：Reasoning モデル向け SFT データの作成 17 Reasoning 過程を含む SFT データセットの作成に関していくつかのアプローチを検討中 •

データ作成基盤 18 kubernetes と Argo workﬂows を用いて Scalable な生成を実現生成

事後学習の流れ 19 データ生成・訓練・評価が基本的なステップデータ生成訓練評価定量・定性評価の Feedback をもとに各プロセスを改善していく

様々なベンチマークで継続的に評価。ベンチマークの追加も日々行っている評価 20 Long-Context Phonebook, LongBench v1/v2 Instruction Following IFEval,

指示追従性の評価：M-IFEval 21 LLM の指示追従 (Instruction-Following) 能力を測るベンチマークとして M-IFEval を活用している評価対象は機械的に判定可能な指示： •

Chat性能の評価：ELYZA-tasks-100 22 Chat での問題解決の性能を評価するため、Japanese MTBench や ELYZA-task-100 での評価も実行生成 +

評価ワークフロー 23 Argo workﬂows の DAG を使って全ベンチマーク並列で生成を実行する生成生成評価

LLM の事後学習の各ステップで使われている技術について紹介まとめデータ生成 LLM を活用した生成訓練 SFT, DPO, RL