Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AIアプリの精度向上ワークフロー - プロンプトの自動最適化による改善基盤の構築

Avatar for kmuto kmuto
March 07, 2026
32

生成AIアプリの精度向上ワークフロー - プロンプトの自動最適化による改善基盤の構築

プロンプトの自動最適化を用いて生成アプリの精度向上を行うワークフローを構築しました。
Human annotationを用いて信頼できるLLM-as-a-Judgeを構築し、構築したLLM-as-a-Judgeを用いてアプリケーションのプロンプトを自動チューニングする仕組みです。
成果物GitHub: https://github.com/eycjur/wandb_agent_hackathon/tree/main/llm-as-a-judge-mvp

Avatar for kmuto

kmuto

March 07, 2026
Tweet

Transcript

  1. 課題 生成AI アプリケーションの精度向上には、 自動評価のための LLM-as-a-Judge が必要。 LLM-as-a-Judge の精度を向上するには、良い・悪いの基準を human annotation

    と して与えるのが一般的 しかし、次の 3 つが課題となる: 1. Human annotation を適切に行うこと(負荷・一貫性・品質) 2. Human annotation から信頼性の高い LLM-as-a-Judge を作成すること 3. LLM-as-a-Judge の評価結果からアプリケーションのプロンプトを改善すること 必要なのは、人間の負担を抑えつつ、 評価エージェントと生成エージェントを改善する仕組み。 3 / 16
  2. Weave による構成 - プロンプトのバージョン管理: Weave Prompts で生成・評価プロンプトを管理 - ログの収集・管理: Weave

    Traces で生 成・評価・人間評価を一元化 - 改善に必要なデータを Weave から取得し、4 ・5 の自動化を実現 6 / 16
  3. プロンプトの自動化手法 ドメインエキスパートのフィードバックを分析し、 文章生成・評価エージェントのプロンプトを改善する「調整エージェント」を用意。 手法 ねらい 主な入力データ 速度 / 品質の傾向 meta

    prompt 既存プロンプトを LLM に分析させ、改善文面を提 案 Weave から取得した直近ログ 速い / 安定性はデータ依存 fewshot 実例(入出力ペア)を使って、模倣しやすい改善 案を作る 実ログを few-shot 例として再 構成 中程度 / 実例に沿った改善が得や すい gepa 複数目的(精度・安定性など)を反復最適化 実ログ + GEPA の探索設定 遅い / 最も本格的で高品質を狙い やすい Judge プロンプト改善・生成プロンプト改善の両方で、手法を切り替えて利用可能。 GEPA については、ax ライブラリを試したが LLM との相性が悪く使い勝手も良くなかったため、Claude にスクラッチで実装させた。 7 / 16