生成AIアプリの精度向上ワークフロー - プロンプトの自動最適化による改善基盤の構築

生成AI アプリの精度向上ワークフロープロンプトの自動最適化による改善基盤の構築 Agent 開発を支えるツール構築Hackaton pythonista

1. 課題 2 / 16

課題生成AI アプリケーションの精度向上には、自動評価のための LLM-as-a-Judge が必要。 LLM-as-a-Judge の精度を向上するには、良い・悪いの基準を human annotation
として与えるのが一般的しかし、次の 3 つが課題となる: 1. Human annotation を適切に行うこと（負荷・一貫性・品質） 2. Human annotation から信頼性の高い LLM-as-a-Judge を作成すること 3. LLM-as-a-Judge の評価結果からアプリケーションのプロンプトを改善すること必要なのは、人間の負担を抑えつつ、評価エージェントと生成エージェントを改善する仕組み。 3 / 16

2. ワークフロー全体像 4 / 16

ワークフロー全体像 5 / 16

Weave による構成 - プロンプトのバージョン管理: Weave Prompts で生成・評価プロンプトを管理 - ログの収集・管理: Weave
Traces で生成・評価・人間評価を一元化 - 改善に必要なデータを Weave から取得し、4 ・5 の自動化を実現 6 / 16

プロンプトの自動化手法ドメインエキスパートのフィードバックを分析し、文章生成・評価エージェントのプロンプトを改善する「調整エージェント」を用意。手法ねらい主な入力データ速度 / 品質の傾向 meta
prompt 既存プロンプトを LLM に分析させ、改善文面を提案 Weave から取得した直近ログ速い / 安定性はデータ依存 fewshot 実例（入出力ペア）を使って、模倣しやすい改善案を作る実ログを few-shot 例として再構成中程度 / 実例に沿った改善が得やすい gepa 複数目的（精度・安定性など）を反復最適化実ログ + GEPA の探索設定遅い / 最も本格的で高品質を狙いやすい Judge プロンプト改善・生成プロンプト改善の両方で、手法を切り替えて利用可能。 GEPA については、ax ライブラリを試したが LLM との相性が悪く使い勝手も良くなかったため、Claude にスクラッチで実装させた。 7 / 16

3. チューニング結果例 8 / 16

Judge プロンプト改善結果 9 / 16

生成プロンプト改善結果 10 / 16

生成プロンプト改善前後の精度比較 11 / 16

生成プロンプトの改善差分 12 / 16

4. デモ 13 / 16

デモ職務経歴書アシスタントの動作と、Weave 連携を実演。デモアプリ: wandb-agent-hackathon.vercel.app リポジトリ: github.com/eycjur/wandb_agent_hackathon 14 / 16

得られた知見・ある程度汎用的なメタプロンプトやアルゴリズムで改善できた・人間によるアノテーションからプロンプトの改善方法を FB として作成できた・人間によるレビューを反映することで、より意図した内容に生成内容を調整できる可能性がある・なお、GEPA については ax ライブラリを試したが
LLM との相性が悪く使い勝手も良くなかったため、Claude にスクラッチで実装させた 15 / 16

Thank you!

生成AIアプリの精度向上ワークフロー - プロンプトの自動最適化による改善基盤の構築

生成AIアプリの精度向上ワークフロー - プロンプトの自動最適化による改善基盤の構築

kmuto

More Decks by kmuto

Featured

Transcript