Upgrade to Pro — share decks privately, control downloads, hide ads and more …

WeaveでMCPを記録する & W&BのMCP

Avatar for Keisuke Kamata Keisuke Kamata
September 26, 2025
170

WeaveでMCPを記録する & W&BのMCP

Avatar for Keisuke Kamata

Keisuke Kamata

September 26, 2025
Tweet

More Decks by Keisuke Kamata

Transcript

  1. Weave Datasets フィードバックを データセット化 Weave: LLMチェインの TraceからEvaluationまで 生成AIワークフローで生成されるすべての情報を、実験から評価、本番環境まで管理することで、 質の高いアプリケーション開発を支援 1

    プロトタイプから スタート 2 評価フレームワークを 構築 3 ユーザーフィードバッ クの反映 4 繰り返し改善 Weave Evaluations 継続的な評価体制 Weave Playground インタラクティブに プロンプト検討 Weave Prompts プロンプトの管理 Weave Leaderboard アプリ性能をランク付 Weave Traces 全ての入出力を記録 Weave Feedback ユーザーからの フィードバック収集 繰り返し改善を行い、 生成AIアプリを構築
  2. Safer AI applications ガードレールと 履歴管理による コンプライアンス対応の AI 開発 Flexible AI

    applications クラウド・モデルに 依存しないプラットフォー ムで、あらゆるAIアプリを 構築 Faster AI application iteration プロトタイプ開発から プロダクション導入まで のスピード向上 本番環境で動く生成AIアプリケーション 開発のために.. W&B Weave 6
  3. 7 import weave weave.init() @weave.op() def get_relevant_documents(question:str): return docs get_relevant_documents(question)

    企業向けの安全なデプロイメント W&Bクライアント フロントエンド W&Bサーバー お客様セキュリティー領域 W&Bセキュリティー領域 W&Bの基本的な使い方 @weave.op()デコレータひとつで生成AI APIの呼び出しに関連する すべてのコードがバージョン管理され、保存 ・共有されます
  4. 8 トレース • 開発時およびデプロイ後の挙動を 完全にモニタリング • Weaveはすべての入力データと出 力データを自動的に記録 • 簡単に操作できるトレースツリーに

    詳細な情報を記録 • レイテンシ、コストの記録も可能(イ ンテグレーションがあるモデルの場 合は自動で計算) • 幅広いインテグレーションを提供 and more…
  5. 11 評価 11 • 独自の評価方法を定義し、 さまざまなシナリオでモデル と出力の精度とパフォーマ ンスを測定 • システムの比較レポートの

    自動生成 • ヒューマンフィードバックも可 能 Weaveに付属する評価指標 ユーザー独自の評価指標 Hallucination Summarization Moderation (based on OpenAI moderation API) Similarity JSON strings XML strings Pydantic data models Context entity recall (from RAGAS) Context Relevancy (from RAGAS) RAGAS EvalForge LangChain And more … LlamaIndex HEMM And more…
  6. Chapter 4 Weaveが提供するガードレールの仕組み 12 • ガードレールの目的 ◦ プロンプト・インジェクションのよう な悪意のある行為を軽減 ◦

    幻覚や不適切なコンテンツの識 別と防止 • 安全性と品質を確保するための事前構築さ れているスコアラーを提供 • 柔軟性: W&Bのスコアラーを使用したり、独 自のサードパーティ製スコアラーや自家製 スコアラーを利用可能
  7. 13 ガードレール vs モニター ガードレール (Guardrails) モニター (Monitors) Purpose 問題を未然に防ぐための積極的な介入

    分析のための受動的観測 Timing 出力がユーザーに届く前のリアルタイム 非同期またはバッチ Performance 高速である必要あり (レスポンスタイムに影響する) バックグラウンドで実行されるため、 通常レイテンシーは問わない Sampling 通常すべてのリクエストに対応 通常サンプリング Control flow 出力をブロックまたは変更可能 アプリケーションのフローに影響をなし Resource usage アプリが動作するローカルインフラ ローカルまたはW&Bが提供する推論環境 ガードレール vs モニターはどちらもW&B Scorersを用いますが、役割が異なります
  8. 15 WeaveでMCPをTracking Client SideのTrace • どんなMCPが利用されているかを Trace • MCPが正しく使われているかの評価も行える Server

    SideのTrace • どんなMCPが利用されているかを Trace - MCPの開発者目 線でユーセージの管理
  9. 17 https://github.com/wandb/wandb-mcp-server 実験データのクエリ: query_wandb_tool Runs と Sweeps を検索・取得 Weave トレースのクエリ:

    query_weave_traces_tool 評価・トレースをフィルタ/ソート/ページネーション付きで取得(完全デー タ or メタデータ) Weave トレース件数カウント: count_weave_traces_tool 条件に合うトレース数を効率的に集計(総数と root 数を返す) W&B サポートBot:query_wandb_support_bot 製品機能に関する一般的な質問に対応 レポート作成: create_wandb_report_tool Markdown テキストやグラフを W&B Reports に保存・共有 プロジェクト情報取得: query_wandb_entity_projects 利用可能な Entity / Project を一覧化し、クエリ作成を補助 W&Bが提供する MCP!
  10. 19 https://vercel.com/blog/the-second-wave-of-mcp-building-for-llms-not-developers • 小さなAPIラッパーでは限界がある ◦ LLMは開発者のように状態や過去のコードを保 持できないため、細かいAPIを組み合わせると 毎回ゼロから手順を再構築する必要がある。そ の結果、繰り返し・失敗・非効率が発生しやすい •

    一発でゴールに到達できる ◦ ワークフロー型ツールなら、途中のつなぎや手 戻りを気にせず、最初の試行で目的を達成しや すい。結果として余計な試行錯誤が減り、ユー ザー体験がスムーズになる
  11. 20