WeaveでMCPを記録する & W&BのMCP

Weights & BiasesとMCP 20250924

2 • MCPの利用をW&B Weaveでトレース • W&Bが提供する MCP • MCPのあれこれ

3 MCPって何？

4 Weaveって何？

Weave Datasets フィードバックをデータセット化 Weave: LLMチェインの TraceからEvaluationまで生成AIワークフローで生成されるすべての情報を、実験から評価、本番環境まで管理することで、質の高いアプリケーション開発を支援 1
プロトタイプからスタート 2 評価フレームワークを構築 3 ユーザーフィードバックの反映 4 繰り返し改善 Weave Evaluations 継続的な評価体制 Weave Playground インタラクティブにプロンプト検討 Weave Prompts プロンプトの管理 Weave Leaderboard アプリ性能をランク付 Weave Traces 全ての入出力を記録 Weave Feedback ユーザーからのフィードバック収集繰り返し改善を行い、生成AIアプリを構築

Safer AI applications ガードレールと履歴管理によるコンプライアンス対応の AI 開発 Flexible AI
applications クラウド・モデルに依存しないプラットフォームで、あらゆるAIアプリを構築 Faster AI application iteration プロトタイプ開発からプロダクション導入までのスピード向上本番環境で動く生成AIアプリケーション開発のために.. W&B Weave 6

7 import weave weave.init() @weave.op() def get_relevant_documents(question:str): return docs get_relevant_documents(question)
企業向けの安全なデプロイメント W&Bクライアントフロントエンド W&Bサーバーお客様セキュリティー領域 W&Bセキュリティー領域 W&Bの基本的な使い方 @weave.op()デコレータひとつで生成AI APIの呼び出しに関連するすべてのコードがバージョン管理され、保存・共有されます

8 トレース • 開発時およびデプロイ後の挙動を完全にモニタリング • Weaveはすべての入力データと出力データを自動的に記録 • 簡単に操作できるトレースツリーに
詳細な情報を記録 • レイテンシ、コストの記録も可能（インテグレーションがあるモデルの場合は自動で計算） • 幅広いインテグレーションを提供 and more…

9 9 モデル・データ・プロンプトのバージョン管理 • モデル、データセット・プロンプトの保存・バージョン管理がWeave内で可能 • 読み出しも数行で実行可能 ※
モデルとは、データとモデルの動作を定義するコードの組み合わせ

10 10 プレイグラウンド • 直感的なUIでプロンプトエンジニアリングを効率化 • チーム単位でのAPIキー管理 •
複数モデルの比較機能で最適なLLMの選定が可能

11 評価 11 • 独自の評価方法を定義し、さまざまなシナリオでモデルと出力の精度とパフォーマンスを測定 • システムの比較レポートの
自動生成 • ヒューマンフィードバックも可能 Weaveに付属する評価指標ユーザー独自の評価指標 Hallucination Summarization Moderation (based on OpenAI moderation API) Similarity JSON strings XML strings Pydantic data models Context entity recall (from RAGAS) Context Relevancy (from RAGAS) RAGAS EvalForge LangChain And more … LlamaIndex HEMM And more…

Chapter 4 Weaveが提供するガードレールの仕組み 12 • ガードレールの目的 ◦ プロンプト・インジェクションのような悪意のある行為を軽減 ◦
幻覚や不適切なコンテンツの識別と防止 • 安全性と品質を確保するための事前構築されているスコアラーを提供 • 柔軟性: W&Bのスコアラーを使用したり、独自のサードパーティ製スコアラーや自家製スコアラーを利用可能

13 ガードレール vs モニターガードレール (Guardrails) モニター (Monitors) Purpose 問題を未然に防ぐための積極的な介入
分析のための受動的観測 Timing 出力がユーザーに届く前のリアルタイム非同期またはバッチ Performance 高速である必要あり（レスポンスタイムに影響する）バックグラウンドで実行されるため、通常レイテンシーは問わない Sampling 通常すべてのリクエストに対応通常サンプリング Control flow 出力をブロックまたは変更可能アプリケーションのフローに影響をなし Resource usage アプリが動作するローカルインフラローカルまたはW&Bが提供する推論環境ガードレール vs モニターはどちらもW&B Scorersを用いますが、役割が異なります

14 WeaveでMCPをTrace

15 WeaveでMCPをTracking Client SideのTrace • どんなMCPが利用されているかを Trace • MCPが正しく使われているかの評価も行える Server
SideのTrace • どんなMCPが利用されているかを Trace - MCPの開発者目線でユーセージの管理

17 https://github.com/wandb/wandb-mcp-server 実験データのクエリ： query_wandb_tool Runs と Sweeps を検索・取得 Weave トレースのクエリ：
query_weave_traces_tool 評価・トレースをフィルタ／ソート／ページネーション付きで取得（完全データ or メタデータ） Weave トレース件数カウント： count_weave_traces_tool 条件に合うトレース数を効率的に集計（総数と root 数を返す） W&B サポートBot：query_wandb_support_bot 製品機能に関する一般的な質問に対応レポート作成： create_wandb_report_tool Markdown テキストやグラフを W&B Reports に保存・共有プロジェクト情報取得： query_wandb_entity_projects 利用可能な Entity / Project を一覧化し、クエリ作成を補助 W&Bが提供する MCP!

19 https://vercel.com/blog/the-second-wave-of-mcp-building-for-llms-not-developers • 小さなAPIラッパーでは限界がある ◦ LLMは開発者のように状態や過去のコードを保持できないため、細かいAPIを組み合わせると毎回ゼロから手順を再構築する必要がある。その結果、繰り返し・失敗・非効率が発生しやすい •
一発でゴールに到達できる ◦ ワークフロー型ツールなら、途中のつなぎや手戻りを気にせず、最初の試行で目的を達成しやすい。結果として余計な試行錯誤が減り、ユーザー体験がスムーズになる

WeaveでMCPを記録する & W&BのMCP

WeaveでMCPを記録する & W&BのMCP

Keisuke Kamata

More Decks by Keisuke Kamata

Featured

Transcript

Weights & BiasesとMCP 20250924

2 • MCPの利用をW&B Weaveでトレース • W&Bが提供する MCP • MCPのあれこれ

3 MCPって何？

4 Weaveって何？

Weave Datasets フィードバックをデータセット化 Weave: LLMチェインの TraceからEvaluationまで生成AIワークフローで生成されるすべての情報を、実験から評価、本番環境まで管理することで、質の高いアプリケーション開発を支援 1

Safer AI applications ガードレールと履歴管理によるコンプライアンス対応の AI 開発 Flexible AI

7 import weave weave.init() @weave.op() def get_relevant_documents(question:str): return docs get_relevant_documents(question)

8 トレース • 開発時およびデプロイ後の挙動を完全にモニタリング • Weaveはすべての入力データと出力データを自動的に記録 • 簡単に操作できるトレースツリーに

9 9 モデル・データ・プロンプトのバージョン管理 • モデル、データセット・プロンプトの保存・バージョン管理がWeave内で可能 • 読み出しも数行で実行可能 ※

10 10 プレイグラウンド • 直感的なUIでプロンプトエンジニアリングを効率化 • チーム単位でのAPIキー管理 •

11 評価 11 • 独自の評価方法を定義し、さまざまなシナリオでモデルと出力の精度とパフォーマンスを測定 • システムの比較レポートの

Chapter 4 Weaveが提供するガードレールの仕組み 12 • ガードレールの目的 ◦ プロンプト・インジェクションのような悪意のある行為を軽減 ◦

13 ガードレール vs モニターガードレール (Guardrails) モニター (Monitors) Purpose 問題を未然に防ぐための積極的な介入

14 WeaveでMCPをTrace

15 WeaveでMCPをTracking Client SideのTrace • どんなMCPが利用されているかを Trace • MCPが正しく使われているかの評価も行える Server

16 • MCPの利用をW&B Weaveでトレース • W&Bが提供する MCP • MCPのあれこれ

17 https://github.com/wandb/wandb-mcp-server 実験データのクエリ： query_wandb_tool Runs と Sweeps を検索・取得 Weave トレースのクエリ：

18 • MCPの利用をW&B Weaveでトレース • W&Bが提供する MCP • MCPのあれこれ

20