Weaveを用いた生成AIアプリケーションの評価_モニタリンングと実践例.pdf

Weaveを用いた生成 AIアプリケーションの評価・モニタリンングと実践例 Keisuke Kamata

2 ディープなデータ活用の世界を支える・先導する • Deep Learning / 生成AI • ヘルスケア
/ タンパク質言語モデルサイエンスの中でのデータ分析のポテンシャルを探求 • 動物実験 • 生体信号処理新しいコンセプトのデータ活用を普及させる • 因果推論 • オフラインABテスト Keisuke Kamata ヘルスケア業界における幅広いデータ活用から社会を支える • 機械学習 • ヘルスケア/コロナ対策 @olachinkei 工学部・情報学研究科 Engagement Manager Lead Data Scientist Healthcare team lead Machine Learning Engineer

生成AI開発には幅広いアプローチがある 3 取り組んでいる企業の数 Low Model Customization OpenAI、Anthropic、Google、Amazon などの企業から提供される既製モデルを使用します。モデルプロバイダーのAPIを用い、プロンプト・エージェントレベルの開
発 Moderate Customization Llama などのオープンウェイトモデルを使用し、ファインチューニング In-house Model Development 自社で基盤モデルをトレーニングモデルカスタマイズのレベル　高低

4 Compound AI / AI Agent System • 生成AIの応用が進むにつれて、単一モデルに依存したアプローチから、多数の
コンポーネントを統合する Compound AI （複合AI）システムへのシフトが進んでいる • 特に2023年以降、自律的な意思決定を行うAI agentシステムの開発に注目が集まっている Compound AI systemの定義は、The Shift from Models to Compound AI Systems, 2024 Feb, BERKELEY ARTIFICIAL INTELLIGENCE RESEARCH 参照システムはより複雑に ...

5 GenAI: easy to demo hard to productionize

6 Compound AI / AI Agent Systemの評価 - 概論システム全体の評価
各ステップ・サブモジュールごとの評価ステップ・ツールの選択・軌跡の評価

7 Compound AI / AI Agent Systemの評価観点 1/3 システム全体の評価システムに入力を与え、期待される回答や成果物が、特定の制約（例：レ
イテンシーやコスト）を満たした上で得られるかを評価メリット • タスク達成度を直接測定できるため、最終成果物に最も近い評価が可能課題 • システム全体の評価だけだと、内部プロセスが不透明で、失敗の原因特定が困難 • 評価に時間がかかる場合があり、反復的な改善プロセスにおいて非効率的

8 Compound AI / AI Agent Systemの評価観点 2/3 システム内で行われる中間的な意思決定やアウトプット、レイテンシー、コストが適切であるかを、各ステップ単位で検証
メリット • 問題箇所をピンポイントで特定可能 • 一度評価体系を構築すると、評価の実装が軽量化される課題 • 各ステップに合わせた評価体系やデータセットの準備が必要で、労力がかかる • 過去ステップ情報を考慮した評価データセットの設計が複雑になる各ステップ・サブモジュールごとの評価

ステップ・ツールの選択・軌跡の評価 9 Compound AI / AI Agent Systemの評価観点 3/3 タスク達成に至る一連のステップ（ツールの呼び出しや中間的な回答）を
評価し、想定された手順通りに進んでいるかを検証します。例えば、ある入力に対し、想定されるツール・ステップのシーケンス（例： [‘a1’, ‘b4’, …]）を準備し、実際の選択結果が一致しているかを確認メリット • 想定外のツール呼び出しや不要なステップが検出可能 • レイテンシーやコストに悪影響を及ぼす要因の特定が可能 • 使用されていないステップの削除によるシステムの複雑性解消課題 • 複数の正解経路が存在する場合、評価基準の設定の難易度が高い • 全行程の分析を行おうとした場合、煩雑で、評価プロセスの負担増

10 Compound AI / AI Agent Systemの評価メトリック

11 Compound AI / AI Agent Systemの評価メトリック詳細はnoteで発信していきます!

12 生成AIアプリケーションを本番環境に持っていくために... • 太い評価体系を構築する必要がある • 評価体系の構築・深掘りのために、システムメトリックスをはじめ、全てのステップ、各ステップの入出力・中間プロセスヒューマンフィードバックをログ(Observe)しておく必要がある

13 生成AIアプリケーションを本番環境に持っていくために... • 太い評価体系を構築する必要がある • 評価体系の構築・深掘りのために、システムメトリックスをはじめ、全てのステップ、各ステップの入出力・中間プロセスヒューマンフィードバックをログ(Observe)しておく必要がある生成AIアプリケーションをObserveして、EvaluateするPlatformが必要

Weights & Biases: MLOps/LLMOpsプラットフォーム

15 MLOpsからLLMOpsまで：幅広い開発ワークフローをカバーする事前学習継続事前学習ファインチューニング・評価アプリケーション構築・評価アプリケーション
モニタリング Models モデル構築とファインチューニング Weave 生成AI アプリケーション開発 MLエンジニアソフトウェアエンジニア生成AIアプリケーションを構築したいソフトウェア開発者基盤モデルの構築やファインチューニングを行いたい MLエンジニア生成AI開発のフロー

16 import weave weave.init() @weave.op() def get_relevant_documents(question:str): return docs get_relevant_documents(question)
企業向けの安全なデプロイメント W&Bクライアントフロントエンド W&Bサーバーお客様セキュリティー領域 W&Bセキュリティー領域 W&Bの基本的な使い方 @weave.op()デコレータひとつで生成AI APIの呼び出しに関連するすべてのコードがバージョン管理され、保存・共有されます

17 Weave: LLMチェインの TraceからEvaluationまで生成AIワークフローで生成されるすべての情報を、実験から評価、本番環境まで整理トレース • Weaveはすべての入力データと出力データを自動的に記録 •
簡単に操作できるトレースツリーに詳細な情報を記録 • レイテンシ、コストの記録も可能評価 • 独自の評価方法を定義し、さまざまなシナリオでパフォーマンスを測定 • システムの比較レポートの自動生成 • ヒューマンフィードバックも可能幅広いインテグレーション and more… モデル・データ・プロンプトのバージョン管理 • モデル、データセットの保存・バージョン管理がWeave内で可能 • 読み出しも数行で実行可能

18 wandbot WandB JP Users wandbjp.slack.com

19 import weave from weave import Evaluation import asyncio weave.init('evaluation-project')
evaluation = Evaluation( dataset=evaluation_dataset, scorers=[evaluation_func1, evaluation_func2] ) asyncio.run(evaluation.evaluate(function_to_evaluate)) Weave内での評価

20 プロダクションモニタリング（オンライン評価）

21 Let’s be the first 🐧! Let’s share your practice🗒
https://wandbai.notion.site/W-B-Models-Weave-22dad8882177429ba1e9f0f05e7ceac3?p vs=4

Weaveを用いた生成AIアプリケーションの評価_モニタリンングと実践例.pdf

Weaveを用いた生成AIアプリケーションの評価_モニタリンングと実践例.pdf

Keisuke Kamata

More Decks by Keisuke Kamata

Featured

Transcript

Weaveを用いた生成 AIアプリケーションの評価・モニタリンングと実践例 Keisuke Kamata

2 ディープなデータ活用の世界を支える・先導する • Deep Learning / 生成AI • ヘルスケア

4 Compound AI / AI Agent System • 生成AIの応用が進むにつれて、単一モデルに依存したアプローチから、多数の

5 GenAI: easy to demo hard to productionize

6 Compound AI / AI Agent Systemの評価 - 概論システム全体の評価

7 Compound AI / AI Agent Systemの評価観点 1/3 システム全体の評価システムに入力を与え、期待される回答や成果物が、特定の制約（例：レ

8 Compound AI / AI Agent Systemの評価観点 2/3 システム内で行われる中間的な意思決定やアウトプット、レイテンシー、コストが適切であるかを、各ステップ単位で検証

ステップ・ツールの選択・軌跡の評価 9 Compound AI / AI Agent Systemの評価観点 3/3 タスク達成に至る一連のステップ（ツールの呼び出しや中間的な回答）を

10 Compound AI / AI Agent Systemの評価メトリック

11 Compound AI / AI Agent Systemの評価メトリック詳細はnoteで発信していきます!

Weights & Biases: MLOps/LLMOpsプラットフォーム

15 MLOpsからLLMOpsまで：幅広い開発ワークフローをカバーする事前学習継続事前学習ファインチューニング・評価アプリケーション構築・評価アプリケーション

16 import weave weave.init() @weave.op() def get_relevant_documents(question:str): return docs get_relevant_documents(question)

17 Weave: LLMチェインの TraceからEvaluationまで生成AIワークフローで生成されるすべての情報を、実験から評価、本番環境まで整理トレース • Weaveはすべての入力データと出力データを自動的に記録 •

18 wandbot WandB JP Users wandbjp.slack.com

19 import weave from weave import Evaluation import asyncio weave.init('evaluation-project')

20 プロダクションモニタリング（オンライン評価）

21 Let’s be the first 🐧! Let’s share your practice🗒