MCPサーバー連携をLLMに学ばせる強化学習フレームワークARTを使ってみる (CyberAgent 三橋亮太)

MCPサーバー連携をLLMに学ばせる強化学習フレームワークARTの知見共有株式会社サイバーエージェント AI 事業本部 AI Lab Reinforcement Learningチーム三橋
亮太 W&B meetup #26

2 ARTの知見共有 01 自己紹介 • 氏名 ◦ 三橋亮太 •
所属 ◦ 2024/11~ 株式会社サイバーエージェント ▪ AI事業本部 AI Lab Reinforcement Learningチームリサーチエンジニア • 業務/軸 ◦ 研究成果のプロダクト提供に向けたエンジニアリング技術の獲得と実践 • 直近の業務 ◦ 軽量な日本語報酬モデルの公開 (HF) ◦ 言語モデルを含むパイプラインの構築と評価 • 趣味：SAKE DIPLOMA(2022)

3 ARTの知見共有 01 • なぜMCPサーバー連携を（オープンウェイト） LLMに学ばせるのか ◦ APIモデルを使えば良いのではないか？ ▪ API利用で解決する規模
/速度であればYes ▪ 数百万件規模のデータをエージェントで処理したいようなケースでは推論コスト/速度が無視できない（社内ノウハウを蓄積する機会の損失） ◦ オープンウェイトモデルにMCPを繋ぎこめば解決ではないのか？ ▪ No ▪ LLMにツールを渡しても最初から 100%使いこなせるわけではない • 提供されたツールを適切に使いこなす能力を身に付けることが必要になると考えている • この能力を獲得するために活用できるライブラリとして ARTを紹介、使用した知見を共有今日の目的

4 ARTの知見共有 01 • 強化学習でLLMの推論能力を向上させる研究が報告されている (DeepSeek-R1) ◦ ①正解が判定可能な指示文に対して複数 (e.g. 16,
32, 64)の応答文を生成 ◦ ②応答文の{正誤/フォーマット/言語/選好}から報酬を計算 ◦ ③報酬を最大化するようにモデルの重みを更新 • 正解が判定可能な数学/コーディングタスクに特化した点が特徴 ◦ 上記のタスクは(選好を除き)ルールベースで即座に報酬が計算可能 ◦ 一方で回答が一意に定まらないオープンエンドタスクへの適用は今後の課題背景 - 強化学習によるLLMの推論能力の強化 - 正解付き指示文 LLM ・・・・・・応答文６１応答文６２応答文６３応答文６４応答文１応答文２応答文３応答文４報酬 ③重みの更新 ① ② 例：GRPO

5 ARTの知見共有 01 • LLM自身の推論結果からモデルの強化学習ループを回してくれるライブラリ ◦ 実装例：メールボックスの検索を要する質問応答タスクにおいて、 APIモデルと比較して　　　　当時のo3よりも正答率が高く、 latencyが小さく、1k
runあたりのコストが安価背景 - ART: Agentic Reinforcement Trainer - repo [ ART·E: How We Built an Email Research Agent That Beats o3 | OpenPipe ] 性能よし速度よしコストよし＋α：オープンエンドタスクにも対応している

6 ARTの知見共有 01 • 背景 • ARTの仕組み • MCPサーバー連携を学ばせるモデルの学習 •
ARTの使い道目次

7 ARTの知見共有 01 ARTの仕組み実際に対戦してデータを獲得例：三目並べデータセットの準備が不要なタスク強化学習ループログ管理推論結果はweaveで管理
学習済みモデルは HuggingFaceで公開可ローカルファイルから読込 HuggingFaceから読込データセットを指定するタスクデータセットを合成するタスク • データセット整備/強化学習ループ/ログ管理の3機能をサポート OpenRouter / LiteLLMから APIモデルを呼び出して合成 ※ARTの強化学習ループは学習中のモデルからさらにデータを生成し、モデルの学習に用いる１．タスク実行 (LoRA adapterで推論) ２．報酬計算 (ルールベース, llm-as-a-judge) ３．モデルの重み更新 , 重みのローカル保存４．１．に戻るデータセット整備

8 ARTの知見共有 01 ARTの仕組み - データセット整備 - 実際に対戦してデータを獲得例：三目並べローカルファイルから読込
HuggingFaceから読込データセットを指定するタスクデータセットを合成するタスク • データセット整備/強化学習ループ/ログ管理の3機能をサポート OpenRouter / LiteLLMから APIモデルを呼び出して合成【データセット整備】複数回対戦して学習データを収集するデータセットの準備が不要なタスク

HuggingFaceから読込データセットを指定するタスクデータセットを合成するタスク • データセット整備/強化学習ループ/ログ管理の3機能をサポート OpenRouter / LiteLLMから APIモデルを呼び出して合成 HuggingFaceなどからダウンロード [https://huggingface.co/datasets/bradhiltonendercorp/SWE-smith-filtered] データセットの準備が不要なタスク【データセット整備】

HuggingFaceから読込データセットを指定するタスクデータセットを合成するタスク • データセット整備/強化学習ループ/ログ管理の3機能をサポート OpenRouter / LiteLLMから APIモデルを呼び出して合成プロンプトを基に難易度を考慮したデータセットを合成　・MCPサーバーのツール情報を与える → ツール使用を考慮したタスクを合成例）合計売上と営業利益の計算 , 人口増加率の計算データセットの準備が不要なタスク【データセット整備】

11 ARTの知見共有 01 ARTの仕組み - データセット整備（MCPサーバーを使う場合） - 実際に対戦してデータを獲得例：三目並べローカルファイルから読込
HuggingFaceから読込データセットを指定するタスクデータセットを合成するタスク • ARTでMCPサーバーを使う場合はSmitheryからツールを取得してくる OpenRouter / LiteLLMから APIモデルを呼び出して合成個人的理解：SmitheryはMCPサーバー版HuggingFace データセットの準備が不要なタスク【データセット整備】

12 ARTの知見共有 01 ARTの仕組み - データセット整備（MCPサーバーを使う場合） - 実際に対戦してデータを獲得例：三目並べローカルファイルから読込
HuggingFaceから読込データセットを指定するタスクデータセットを合成するタスク • ARTでMCPサーバーを使う場合はSmitheryからツールを取得してくる OpenRouter / LiteLLMから APIモデルを呼び出して合成チュートリアルとしてMath-MCPを使用(四則演算と三角関数他を計算する機能) 　・実装ではMCPサーバー固有のURLを指定してツールとリソースを取得するデータセットの準備が不要なタスク【データセット整備】

学習済みモデルは HuggingFaceで公開可ローカルファイルから読込 HuggingFaceから読込データセットを指定するタスクデータセットを合成するタスク • データセット整備/強化学習ループ/ログ管理の3機能をサポート OpenRouter / LiteLLMから APIモデルを呼び出して合成１．タスク実行 (LoRA adapterで推論) ２．報酬計算 (ルールベース, llm-as-a-judge) ３．モデルの重み更新 , 重みのローカル保存４．１．に戻るデータセット整備 ※ARTの強化学習ループは学習中のモデルからさらにデータを生成し、モデルの学習に用いる

14 ARTの知見共有 01 • 推論結果から報酬を計算し重みを更新、再度推論と重みの更新を繰り返す ARTの仕組み - オンライン学習 - ※ARTの強化学習ループは学習中のモデルからさら
にデータを生成し、モデルの学習に用いる１．タスク実行 (LoRA adapterで推論) ２．報酬計算 (ルールベース, llm-as-a-judge) ３．モデルの重み更新 , 重みのローカル保存４．１．に戻る unslothとvllmでモデル訓練を省メモリ化し推論を高速化 Task LLM 推論結果１推論結果２推論結果３推論結果ｎ・・・報酬 adapter + vllm unsloth adapter 重み更新 + 【強化学習ループ】 RULER

15 ARTの知見共有 01 • 推論結果から報酬を計算し重みを更新、再度推論と重みの更新を繰り返す ARTの仕組み - オンライン学習（RULER評価） - ※ARTの強化学習ループは学習中のモデルからさら
にデータを生成し、モデルの学習に用いる１．タスク実行 (LoRA adapterで推論) ２．報酬計算 (ルールベース, llm-as-a-judge) ３．モデルの重み更新 , 重みのローカル保存４．１．に戻る RULER（Relative Universal LLM-Elicited Rewards）　・エージェントの推論結果を基に相対的にスコアを付与する【強化学習ループ】推論結果1 推論結果2 推論結果3 推論結果n ・・・推論結果1：0.25 推論結果2：0.6 推論結果n：0.85 ・・・目標が同じn個の推論結果(＝軌跡)をスコア付けしなさい　rubric1: 目標を達成した軌跡 >> 目標を達成できない軌跡　rubric2: 目標を効率的に達成した軌跡 > 非効率な軌跡　rubric3: 軌跡間の優劣の差をスコアに反映する　rubric4: 目標に向けて進捗があれば部分点を与える LLM-as-a-judge

学習済みモデルは HuggingFaceで公開可ローカルファイルから読込 HuggingFaceから読込データセットを指定するタスクデータセットを合成するタスク • データセット整備/オンライン学習/ログ管理の3機能をサポート OpenRouter / LiteLLMから APIモデルを呼び出して合成 ※オフライン学習は固定のデータセットから学習する。ARTのオンライン学習は学習中のモデルからさらにデータを生成し、モデルの学習に用いる１．タスク実行 (LoRA adapterで推論) ２．報酬計算 (ルールベース, llm-as-a-judge) ３．モデルの重み更新 , 重みのローカル保存４．１．に戻るデータセット整備

17 ARTの知見共有 01 • 共有・公開可能な形でログを管理 ARTの仕組み - ログ管理 - タスク実行部に@weave.opを付与するだけでchat形式のログが取得可能
推論結果はweaveで管理学習済みモデルは HuggingFaceで公開可【ログ管理】

19 ARTの知見共有 01 Math-MCPの学習結果（Example notebookのmcp-rlを元に修正を加えて実装）

20 ARTの知見共有 01 Math-MCPの学習結果（Example notebookのmcp-rlを元に修正を加えて実装）

21 ARTの知見共有 01 • ツールは極力シンプルに（自作が望ましい） ◦ 学習に使用してほしいツールだけ見せるようツールのフィルタリングを行った ◦ Math-MCPの場合、22ツールの内、使って欲しい 5ツールだけに絞りモデルに渡した
• エラーを丁寧に書く ◦ (モデルの読解力依存ではあるが）除算ツールを呼ぶ際にモデルは ”devide”関数をコールしていた ◦ Math-MCPの除算は”division”で登録されている→以下のエラーを書いて学習データ化工夫した点

23 ARTの知見共有 01 • ドメイン特化文書の読解と生成 ◦ Few-shot プロンプトで対応しきれない、エッジケースが大量にある場合の文書に対して、読解タスクの正答率等を報酬としたオンライン学習を行う
◦ プロンプトに書き切れない複雑なルールを、自身の失敗した推論結果から学習すると（最終的に）複雑なルールの組み合わせを守った生成ができるかも • カスタマーサポートの人間へのエスカレーション判断と継続改善 ◦ 定型質問やマニュアルで対応可能な回答はチャットボットで自動回答させたいが、上記の対応を超えた質問が来た場合は即座に人間に判断を仰ぎたい場面を想定 ◦ 製品によって異なるエスカレーション基準を、エスカレーション後の人間による対応データを学習しながら、エスカレーション基準と応答品質の向上を図る ARTの使い道 ※ 個人的な見解です

24 ARTの知見共有 01 • MCPサーバー連携をLLMに学ばせる強化学習フレームワーク ARTを紹介 ◦ ツール使用を含むタスク実行能力を身に付ける方法を学習できるライブラリ ◦ ツール使用を考慮したタスクの合成とオンライン学習とログ管理をサポート
• Math-MCPを例に実装結果を共有 ◦ 与えたツールを適切に使うことを確認 ◦ モデルに渡すツールは極力シンプルに、エラーを丁寧に記載して次の学習データに変換 • 特定のユースケースに対してARTでアプローチできそうなことを共有 ◦ ドメイン特化文書の読解や生成の案 ◦ カスタマーサポートにおけるエスカレーション性能の改善案まとめ

MCPサーバー連携をLLMに学ばせる強化学習フレームワークARTを使ってみる (CyberAg...

MCPサーバー連携をLLMに学ばせる強化学習フレームワークARTを使ってみる (CyberAgent 三橋亮太)

Keisuke Kamata

More Decks by Keisuke Kamata

Featured

Transcript

MCPサーバー連携をLLMに学ばせる強化学習フレームワークARTの知見共有株式会社サイバーエージェント AI 事業本部 AI Lab Reinforcement Learningチーム三橋

2 ARTの知見共有 01 自己紹介 • 氏名 ◦ 三橋亮太 •

3 ARTの知見共有 01 • なぜMCPサーバー連携を（オープンウェイト） LLMに学ばせるのか ◦ APIモデルを使えば良いのではないか？ ▪ API利用で解決する規模

4 ARTの知見共有 01 • 強化学習でLLMの推論能力を向上させる研究が報告されている (DeepSeek-R1) ◦ ①正解が判定可能な指示文に対して複数 (e.g. 16,

6 ARTの知見共有 01 • 背景 • ARTの仕組み • MCPサーバー連携を学ばせるモデルの学習 •

7 ARTの知見共有 01 ARTの仕組み実際に対戦してデータを獲得例：三目並べデータセットの準備が不要なタスク強化学習ループログ管理推論結果はweaveで管理

8 ARTの知見共有 01 ARTの仕組み - データセット整備 - 実際に対戦してデータを獲得例：三目並べローカルファイルから読込

9 ARTの知見共有 01 ARTの仕組み - データセット整備 - 実際に対戦してデータを獲得例：三目並べローカルファイルから読込

10 ARTの知見共有 01 ARTの仕組み - データセット整備 - 実際に対戦してデータを獲得例：三目並べローカルファイルから読込

11 ARTの知見共有 01 ARTの仕組み - データセット整備（MCPサーバーを使う場合） - 実際に対戦してデータを獲得例：三目並べローカルファイルから読込

12 ARTの知見共有 01 ARTの仕組み - データセット整備（MCPサーバーを使う場合） - 実際に対戦してデータを獲得例：三目並べローカルファイルから読込

13 ARTの知見共有 01 ARTの仕組み実際に対戦してデータを獲得例：三目並べデータセットの準備が不要なタスク強化学習ループログ管理推論結果はweaveで管理

14 ARTの知見共有 01 • 推論結果から報酬を計算し重みを更新、再度推論と重みの更新を繰り返す ARTの仕組み - オンライン学習 - ※ARTの強化学習ループは学習中のモデルからさら

15 ARTの知見共有 01 • 推論結果から報酬を計算し重みを更新、再度推論と重みの更新を繰り返す ARTの仕組み - オンライン学習（RULER評価） - ※ARTの強化学習ループは学習中のモデルからさら

16 ARTの知見共有 01 ARTの仕組み実際に対戦してデータを獲得例：三目並べデータセットの準備が不要なタスク強化学習ループログ管理推論結果はweaveで管理

17 ARTの知見共有 01 • 共有・公開可能な形でログを管理 ARTの仕組み - ログ管理 - タスク実行部に@weave.opを付与するだけでchat形式のログが取得可能

18 ARTの知見共有 01 • 背景 • ARTの仕組み • MCPサーバー連携を学ばせるモデルの学習 •

19 ARTの知見共有 01 Math-MCPの学習結果（Example notebookのmcp-rlを元に修正を加えて実装）

20 ARTの知見共有 01 Math-MCPの学習結果（Example notebookのmcp-rlを元に修正を加えて実装）

22 ARTの知見共有 01 • 背景 • ARTの仕組み • MCPサーバー連携を学ばせるモデルの学習 •

23 ARTの知見共有 01 • ドメイン特化文書の読解と生成 ◦ Few-shot プロンプトで対応しきれない、エッジケースが大量にある場合の文書に対して、読解タスクの正答率等を報酬としたオンライン学習を行う

MCPサーバー連携をLLMに学ばせる強化学習フレームワークARTを使ってみる (CyberAg...

MCPサーバー連携をLLMに学ばせる強化学習フレームワークARTを使ってみる (CyberAgent 三橋 亮太)

More Decks by Keisuke Kamata

Featured

Transcript

MCPサーバー連携をLLMに学ばせる強化学習フレームワークARTを使ってみる (CyberAgent 三橋亮太)