$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Weaveを用いた生成AIアプリケーションの評価_モニタリンングと実践例.pdf
Search
Keisuke Kamata
December 16, 2024
2
530
Weaveを用いた生成AIアプリケーションの評価_モニタリンングと実践例.pdf
Keisuke Kamata
December 16, 2024
Tweet
Share
More Decks by Keisuke Kamata
See All by Keisuke Kamata
MCPサーバー連携をLLMに学ばせる強化学習フレームワークARTを使ってみる (CyberAgent 三橋 亮太)
olachinkei
1
270
W&Bが新しくリリースしたServerless RLの紹介 (W&B 鎌田啓輔)
olachinkei
0
220
WeaveでMCPを記録する & W&BのMCP
olachinkei
1
270
LLMアプリケーションの品質担保に向けた プラクティスと LLMオブザーバビリティツール
olachinkei
1
260
生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo
olachinkei
2
1.2k
20240917_wandb_Monthly_meetup_TIS
olachinkei
0
570
Nejumi Leaderboard release 20240702
olachinkei
1
360
LCTG Bench 日本語LLMの制御性ベンチマークの紹介
olachinkei
1
510
ICHIKARA-INSTRUCTION LLMのための日本語インストラクションの構築と 人間とGPT-4による評価で観察されたもの
olachinkei
1
1.3k
Featured
See All Featured
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Large-scale JavaScript Application Architecture
addyosmani
515
110k
The Language of Interfaces
destraynor
162
25k
The Cost Of JavaScript in 2023
addyosmani
55
9.3k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
720
Designing Experiences People Love
moore
143
24k
Rebuilding a faster, lazier Slack
samanthasiow
84
9.3k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.7k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.1k
Speed Design
sergeychernyshev
33
1.4k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
390
Transcript
Weaveを用いた生成 AIアプリケーションの 評価・モニタリンングと実践例 Keisuke Kamata
2 ディープなデータ活用 の世界を支える・先導する • Deep Learning / 生成AI • ヘルスケア
/ タンパク質言語モデル サイエンスの中でのデータ分析の ポテンシャルを探求 • 動物実験 • 生体信号処理 新しいコンセプトのデータ活用を 普及させる • 因果推論 • オフラインABテスト Keisuke Kamata ヘルスケア業界における 幅広いデータ活用から社会を支える • 機械学習 • ヘルスケア/コロナ対策 @olachinkei 工学部・情報学研究科 Engagement Manager Lead Data Scientist Healthcare team lead Machine Learning Engineer
生成AI開発には幅広いアプローチがある 3 取り組んでいる企業の数 Low Model Customization OpenAI、Anthropic、Google、Amazon などの企業から 提供される既製モデルを使用します。モデルプロバイ ダーのAPIを用い、プロンプト・エージェントレベルの開
発 Moderate Customization Llama などのオープンウェイトモデルを使用し、ファイ ンチューニング In-house Model Development 自社で基盤モデルをトレーニング モデルカスタマイズのレベル 高 低
4 Compound AI / AI Agent System • 生成AIの応用が進むにつれて、単一モ デルに依存したアプローチから、多数の
コンポーネントを統合する Compound AI (複合AI)システムへのシフトが進んでい る • 特に2023年以降、自律的な意思決定を 行うAI agentシステムの開発に注目が 集まっている Compound AI systemの定義は、The Shift from Models to Compound AI Systems, 2024 Feb, BERKELEY ARTIFICIAL INTELLIGENCE RESEARCH 参照 システムはより複雑に ...
5 GenAI: easy to demo hard to productionize
6 Compound AI / AI Agent Systemの評価 - 概論 システム全体の評価
各ステップ・サブモジュールごと の評価 ステップ・ツールの 選択・軌跡の評価
7 Compound AI / AI Agent Systemの評価観点 1/3 システム全体の評価 システムに入力を与え、期待される回答や成果物が、特定の制約(例:レ
イテンシーやコスト)を満たした上で得られるかを評価 メリット • タスク達成度を直接測定できるため、最終成果物に最も近い評 価が可能 課題 • システム全体の評価だけだと、内部プロセスが不透明で、失敗 の原因特定が困難 • 評価に時間がかかる場合があり、反復的な改善プロセスにおい て非効率的
8 Compound AI / AI Agent Systemの評価観点 2/3 システム内で行われる中間的な意思決定やアウトプット、レイテンシー、コ ストが適切であるかを、各ステップ単位で検証
メリット • 問題箇所をピンポイントで特定可能 • 一度評価体系を構築すると、評価の実装が軽量化される 課題 • 各ステップに合わせた評価体系やデータセットの準備が必要で、 労力がかかる • 過去ステップ情報を考慮した評価データセットの設計が複雑になる 各ステップ・サブモジュールごとの評価
ステップ・ツールの選択・軌跡の評価 9 Compound AI / AI Agent Systemの評価観点 3/3 タスク達成に至る一連のステップ(ツールの呼び出しや中間的な回答)を
評価し、想定された手順通りに進んでいるかを検証します。例えば、ある 入力に対し、想定されるツール・ステップのシーケンス(例: [‘a1’, ‘b4’, …])を準備し、実際の選択結果が一致しているかを確認 メリット • 想定外のツール呼び出しや不要なステップが検出可能 • レイテンシーやコストに悪影響を及ぼす要因の特定が可能 • 使用されていないステップの削除によるシステムの複雑性解消 課題 • 複数の正解経路が存在する場合、評価基準の設定の難易度が 高い • 全行程の分析を行おうとした場合、煩雑で、評価プロセスの負 担増
10 Compound AI / AI Agent Systemの評価メトリック
11 Compound AI / AI Agent Systemの評価メトリック 詳細はnoteで発信していきます!
12 生成AIアプリケーションを本番環境に持っていくために... • 太い評価体系を構築する必要がある • 評価体系の構築・深掘りのために、 システムメトリックスをはじめ、 全てのステップ、各ステップの入出力・中間プロセス ヒューマンフィードバックをログ(Observe)しておく必要がある
13 生成AIアプリケーションを本番環境に持っていくために... • 太い評価体系を構築する必要がある • 評価体系の構築・深掘りのために、 システムメトリックスをはじめ、 全てのステップ、各ステップの入出力・中間プロセス ヒューマンフィードバックをログ(Observe)しておく必要がある 生成AIアプリケーションをObserveして、EvaluateするPlatformが必要
Weights & Biases: MLOps/LLMOpsプラットフォーム
15 MLOpsからLLMOpsまで: 幅広い開発ワークフローをカバーする 事前学習 継続事前学習 ファイン チューニング・評価 アプリケーション 構築・評価 アプリケーション
モニタリング Models モデル構築と ファインチューニング Weave 生成AI アプリケーション開発 MLエンジニア ソフトウェア エンジニア 生成AIアプリケーションを 構築したいソフトウェア開発者 基盤モデルの構築や ファインチューニングを行いたい MLエンジニア 生成AI開発のフロー
16 import weave weave.init() @weave.op() def get_relevant_documents(question:str): return docs get_relevant_documents(question)
企業向けの安全なデプロイメント W&Bクライアント フロントエンド W&Bサーバー お客様セキュリティー領域 W&Bセキュリティー領域 W&Bの基本的な使い方 @weave.op()デコレータひとつで生成AI APIの呼び出しに関連する すべてのコードがバージョン管理され、保存 ・共有されます
17 Weave: LLMチェインの TraceからEvaluationまで 生成AIワークフローで生成されるすべての情報を、実験から評価、本番環境まで整理 トレース • Weaveはすべての入力データと出力 データを自動的に記録 •
簡単に操作できるトレースツリーに詳細 な情報を記録 • レイテンシ、コストの記録も可能 評価 • 独自の評価方法を定義し、さまざまなシ ナリオでパフォーマンスを測定 • システムの比較レポートの自動生成 • ヒューマンフィードバックも可能 幅広いインテグレーション and more… モデル・データ・ プロンプトのバージョン管理 • モデル、データセットの保存・バージョン 管理がWeave内で可能 • 読み出しも数行で実行可能
18 wandbot WandB JP Users wandbjp.slack.com
19 import weave from weave import Evaluation import asyncio weave.init('evaluation-project')
evaluation = Evaluation( dataset=evaluation_dataset, scorers=[evaluation_func1, evaluation_func2] ) asyncio.run(evaluation.evaluate(function_to_evaluate)) Weave内での評価
20 プロダクションモニタリング(オンライン評価)
21 Let’s be the first 🐧! Let’s share your practice🗒
https://wandbai.notion.site/W-B-Models-Weave-22dad8882177429ba1e9f0f05e7ceac3?p vs=4