W&Bが新しくリリースしたServerless RLの紹介 (W&B 鎌田啓輔)

W&B Training (Serverless RL)

2 • Deep Learning / 生成AI • ヘルスケア / タンパク質言語モデル
• 動物実験 • 生体信号処理 • 因果推論 • オフラインABテスト Keisuke Kamata • 機械学習 • ヘルスケア/コロナ対策 @olachinkei 工学部・情報学研究科 Engagement Manager Lead Data Scientist Healthcare team lead Manager, AI Solution Engineer 最近の生成 AI周りの活動 • Nejumi Leaderboardの開発 • BioNeMo2 Contributor • 日本語wandbot開発 / 社内エージェント開発中 • … ブログ・ホワイトペーパーなど • W&B生成AIホワイトペーパー • AI Agent評価ブログ • 人手評価と自動評価の比較 with いちから • MCPブログ • GENIAC評価ガイド作成 • …

3 LLM開発における強化学習 (RL)の進化とオンザジョブ RLの重要性 • RLの手法は急速に発展し、LLMの人間の意図に沿った振る舞いの調整（PPO, DPOなど）から、高度な推論能力の獲得（GRPOなど）を実現してきた • それでも「汎用モデル」と、企業が求める「実務要件」の間にはギャップがある。
• 企業固有のタスクに合わせてモデルを再調整するためにSFTをしたいが十分なデータがないケースが多いそのギャップを埋める期待をされているのが「オンザジョブRL」

4 日本での関心 & PPOからGRPOまでキャッチアップしたい方に https://note.com/olachin/n/n9706c13c8678

強化学習のハードルを下げる • Agent Reinforcement Trainer（ART）フレームワーク・RULER Universal Verifierとの統合 GPUインフラの抽象化・高速化 •
CoreWeave 上で稼働するサーバーレス強化学習バックエンド • 高速化を実現実験管理ツールとのインテグレーション • 学習状況の管理・Roll outの可視化 • LoRA チェックポイントは W&B のアーティファクトとして保存（必要であればダウンロード・推論利用可能 β機能） Serverless RL (W&B Training) CoreWeave Inference GPU cluster CoreWeave Training GPU cluster Rollout inference Trajectories ENV LoRA sync AGENT LLM LLM

6 ARTとは • マルチターン対応 ◦ エージェント型のワークフローに最適化された設計 • フロントエンド/バックエンド分離 ◦ 既存コードベースへの統合が容易で、将来的には分散デ
プロイも可能 • OpenAI互換 ◦ 既存の推論コードをそのまま活用可能 • 効率的なメモリ使用 ◦ KVキャッシュのCPUオフロードにより、7BモデルをGoogle Colab無料枠でもトレーニング可能なレベルに LLMを強化学習でトレーニングするフレームワーク(HuggingFaceの GRPOTrainerやverlなど)の課題 • シングルターン想定 • マルチターンロールアウト対応後のエージェントトレーニング中の低い GPU使用率 • 既存コードベースとの統合 • LLM エージェントを GRPO（将来は PPO ・GSPOなども追加予定）で手軽に強化学習 • 対応モデル: OpenPipe Qwen3 14B Instruct • 推論には vLLM、学習には TRL + Unsloth* を採用 (LoRAベース) *LoRA・QLoRAを “少ないメモリで高速化する ” ための最適化フレームワーク

7 Step 1 Step 2 Step 3 Agent running (Rollout)
Training Deadweight loss Time GPU utilization (%) 100 75 50 25 0 Waiting on stragglers, low utilization Model training, high utilization Rollouts start, high utilization Synchronous RL GPU utilization by step rolloutで短いものはすぐ終わる → GPU が処理し終わって待機状態に入る

8 Serverless RL vs. local H100 training Local H100 $47
Serverless RL Local H100 Serverless RL Local H100 Serverless RL Training run cost Wall clock training time Test set accuracy $80 16h 22h 0.94 0.95

9 RULERとは • LLM が複数の軌跡を相対評価してスコアを生成する汎用的な報酬関数（プロンプトで設計） • ラベル不要・手作業の報酬設計不要・人手フィードバック不要 • ある入力について N
個の軌跡（trajectory）を生成 • 共通部分を除いて LLM-as-judge にまとめて提示 • LLM が 0〜1 で相対スコアを返す • そのスコアを GRPO に渡して学習 • 繰り返す 1. 絶対評価よりランキング評価の方がLLMが得意 → 個別スコアより安定し、失敗点を発見しやすい 2. GRPO が相対スコアだけ使う → グループ間のスコア基準のズレ問題を無視できる → キャリブレーション不要でロバスト Script: https://github.com/OpenPipe/ART/blob/f872cc33fb670f92677dece8a84eb5fe6751b281/src/art/rewards/ruler.py How it works メリット

10 RULER performance comparison OpenAI o3 Qwen 2.5 Instruct Qwen
2.5+Manual RL Qwen 2.5+RULER RL Task OpenAI o3 Qwen 2.5 Qwen 2.5+ Manual RL Qwen 2.5+ RULER RL ART-E 90% 41% 96% 95% Reasoning classifier 86% 60% 89% 90% Voice ordering 95% 73% 95% 96% Agentic customer support 50% 62% 92% 93% ART-E Success rate (%) 95% Reasoning classifier Voice ordering Agentic customer support 100 0% 20% 40% 60% 80% 90% 96% 93%

11 Serverless RLの仕組み W&B Artifacts LoRA adapter Track with W&B
Models Track with W&B Weave

12 Demo ART-E • ART·E は「メール検索エージェント」を強化学習で最適化 • ユーザー質問に対し、メール検索 →
読み込み → 回答生成を自動化 • Enron メールを用いた合成データで学習 • GRPO による最適化（正答かどうか、ターン数、関連性など） • ユーザー質問を受け取る • search_emails で関連メールを検索 • read_email で候補メール本文を取得 • 必要に応じて検索・読込を繰り返す（最大10ターン） • return_final_answer で回答と根拠メールを返す https://openpipe.ai/blog/art-e-mail-agent 概要流れ

13 Tips ▪ 1. 報酬の“標準偏差”を監視する • GRPO は複数の軌跡を比較して学習するため、報酬が似通いすぎると学習信号が消える。 •
停滞したら：軌跡数を増やす／報酬を少し密にする／学習率を下げる。 ▪ 2. メトリクスを多角的に追跡する • 正答率だけで判断すると“ごまかし”を見逃す。 • 例：ターン数・失敗率・幻覚率・検索成功率などを併せて見る。 ▪ 3. 出力を“必ず”人間の目で確認する • RLモデルは報酬ハックの天才。 • 報酬が増えていても、意図しない行動をしている可能性がある。 • 例：部分点を与えたら同じツール呼び出しを無限リピート。 ▪ 4. 部分的な報酬は慎重に設計する • 中間目標を与えると、それを“最適に悪用”されるリスクがある。 • 最終目的だけで学習させた方が早い場合も多い。 ▪ 5. ハイパーパラメータは小刻みに試す • GRPO は敏感なため、LR や rollout 数の微調整で大きく変わる。 • 1回の学習に固執せず、短時間ジョブを何度も回して効率化する。

14 W&B Trainingってどんな料金体系？ CoreWeave Inference GPU cluster CoreWeave Training GPU
cluster Rollout inference Trajectories ENV LoRA sync AGENT LLM LLM W&B Models W&B Weave - 学習トラッキング - Artifacts - RolloutのTrace License 今は無料 W&B Inferenceとして課金 GPU - 前提: public preview (Priceは変更の可能性あり ) - W&B ModelsとWeaveがあるとTrackingが便利にできる。ModelsとWeaveのライセンスの中で完結 - Backendとして、CoreWeaveのcluster (W&B Inference) を使う場合には、W&B Inferenceがコストとしてかかってくる - Training GPU代は現状なし - W&B Inferenceは現状Multi-tenant SaaSだけ - $250の無料クレジット (Enterprise でも $250 クレジット内なら利用可) - Localの学習・推論環境を使えばW&B Inferenceのコストはかからない

15 W&B Trainingを試してみてください！ https://docs.wandb.ai/training 19:40 start

Appendix

17 Weights & Biases AI Agent Suite Training Train agents
with serverless RL Inference Deploy agents at scale Models Build models to power agents Weave Observe + evaluate agents

W&B Inference powered by CoreWeave

19 CoreWeave×Weights and Biases AI開発を加速する次世代の統合 AIプラットフォーム -AI開発のワークフローを簡素化し、AIイノベーションをより早く市場に投入するための機能を提供 -顧客の開発ワークフローに対する独自の洞察を提供し、継続的なプラットフォームの改善を促進
アプリケーション向けソフトウェア推論最適化ベアメタル (物理サーバ ) VPC CKS LOTA Nimbus Bluefield DPUs InfiniBand NVlink GB200 液体冷却 Mission Control FLCC NLCC AI向けﾓｼﾞｭｰﾙ設計 Models (W&B Models) • 実験の追跡と可視化 • MLワークフローのジョブをパッケージ化・実行するためのツール • ハイパーパラメータの最適化 • CI/CDパイプラインの構築 Applications (W&B Weave) • LLMおよびプロンプトの監視とデバッグ • エージェント型AIアプリケーションを厳密に評価するためのツール • エージェントおよびプロンプトの監視とデバッグ W&B Models W&B Weave マネージドソフトウェアサービスインフラデータセンター可観測性とライフサイクルの管理

Powered by CoreWeave W&B Inference: Instantly access leading open-source LLMs
20 • LLM を手軽に切り替えて試せる環境 • API キー登録やモデルのデプロイは不要 • オープンソース LLM をゼロ設定で利用できるプレイグラウンド • アプリの挙動を可視化するWeaveとのインテグレーション DeepSeek R1-0528 LLaMa 3.3 70B LLaMA 4 Scout 17Bx16E Phi 4 Mini 3.8B LLaMA 3.1 8B DeepSeek V3-0324 Kimi K2 Instruct ∂ Qwen3 Coder ∂ Qwen3 Thinking ∂ Qwen3 Instruct GPT OSS 120B ∂ GPT OSS 20B GLM 4.5 DeepSeek V3.1

Serverless RL powered by OpenPipe & CoreWeave

25 LLM開発における強化学習 (RL)の進化とオンザジョブ RLの重要性 • RLの手法は急速に発展し、LLMの人間の意図に沿った振る舞いの調整（PPO, DPOなど）から、高度な推論能力の獲得（GRPOなど）を実現してきた • それでも「汎用モデル」と、企業が求める「実務要件」の間にはギャップがある。
• 企業固有のタスクに合わせてモデルを再調整するためにSFTをしたいが十分なデータがないケースが多いそのギャップを埋める期待をされているのが「オンザジョブRL」

26 OpenPipe 2023: USのNYで創業 LLM を効率的に使うためのモデル最適化プラットフォームを提供 (SFT) 2025：CoreWeave
が買収エージェント訓練基盤として強化 -> RLに注力

強化学習のハードルを下げる • Agent Reinforcement Trainer（ART）フレームワーク・RULER Universal Verifierとの統合 GPUインフラの抽象化・高速化 •
CoreWeave 上で稼働するサーバーレス強化学習バックエンド • 高速化を実現実験管理ツールとのインテグレーション • 学習状況の管理・Roll outの可視化 • LoRA チェックポイントは W&B のアーティファクトとして保存（必要であればダウンロード・推論利用可能 β機能） Serverless RL (W&B Training) CoreWeave Inference GPU cluster CoreWeave Training GPU cluster Rollout inference Trajectories ENV LoRA sync AGENT LLM LLM

W&Bが新しくリリースしたServerless RLの紹介 (W&B 鎌田啓輔)

W&Bが新しくリリースしたServerless RLの紹介 (W&B 鎌田啓輔)

Keisuke Kamata

More Decks by Keisuke Kamata

Featured

Transcript

W&B Training (Serverless RL)

2 • Deep Learning / 生成AI • ヘルスケア / タンパク質言語モデル

4 日本での関心 & PPOからGRPOまでキャッチアップしたい方に https://note.com/olachin/n/n9706c13c8678

強化学習のハードルを下げる • Agent Reinforcement Trainer（ART）フレームワーク・RULER Universal Verifierとの統合 GPUインフラの抽象化・高速化 •

6 ARTとは • マルチターン対応 ◦ エージェント型のワークフローに最適化された設計 • フロントエンド/バックエンド分離 ◦ 既存コードベースへの統合が容易で、将来的には分散デ

7 Step 1 Step 2 Step 3 Agent running (Rollout)

8 Serverless RL vs. local H100 training Local H100 $47

9 RULERとは • LLM が複数の軌跡を相対評価してスコアを生成する汎用的な報酬関数（プロンプトで設計） • ラベル不要・手作業の報酬設計不要・人手フィードバック不要 • ある入力について N

10 RULER performance comparison OpenAI o3 Qwen 2.5 Instruct Qwen

11 Serverless RLの仕組み W&B Artifacts LoRA adapter Track with W&B

12 Demo ART-E • ART·E は「メール検索エージェント」を強化学習で最適化 • ユーザー質問に対し、メール検索 →

13 Tips ▪ 1. 報酬の“標準偏差”を監視する • GRPO は複数の軌跡を比較して学習するため、報酬が似通いすぎると学習信号が消える。 •

14 W&B Trainingってどんな料金体系？ CoreWeave Inference GPU cluster CoreWeave Training GPU

15 W&B Trainingを試してみてください！ https://docs.wandb.ai/training 19:40 start

Appendix

17 Weights & Biases AI Agent Suite Training Train agents

W&B Inference powered by CoreWeave

Powered by CoreWeave W&B Inference: Instantly access leading open-source LLMs

23

Serverless RL powered by OpenPipe & CoreWeave

26 OpenPipe 2023: USのNYで創業 LLM を効率的に使うためのモデル最適化プラットフォームを提供 (SFT) 2025：CoreWeave

強化学習のハードルを下げる • Agent Reinforcement Trainer（ART）フレームワーク・RULER Universal Verifierとの統合 GPUインフラの抽象化・高速化 •

28