Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LegalドメインにおけるRAG精度改善フロー

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
300

 LegalドメインにおけるRAG精度改善フロー

Avatar for LegalOn Technologies, Inc

LegalOn Technologies, Inc PRO

December 12, 2025
Tweet

More Decks by LegalOn Technologies, Inc

Transcript

  1. 検索ツールの例 2 • 契約書検索ツール • 関連契約書検索ツール • WebSearchツール ◦ 契約書・条文を探す際に使われる

    ◦ フィルタリングが可能 (例: 取引先名、契約類型、契約締結日など) ◦ 基本契約と覚書など、親子関係を特定する ◦ 法令・判例など、外部の一次情報を知る必要がある場合
  2. Legalドメインにおける精度改善の難しさ (面白さ) 3 • 深いドメイン知識が要求される • セキュリティ要件が高い • マルチリージョン対応 ◦

    法務の業務フローを深く理解する ◦ ドメインエキスパート(法務の専門家)と密にコミュニケーションを取る必要 ◦ ログや契約書データへのアクセスが制限されている ◦ ユーザーが実際に体感している精度を把握しにくい ◦ 法律がリージョンごとに異なる (× リージョン数分の評価)
  3. 初期の精度改善フロー 4 • 評価セットの作成 • 評価 • 改善 ◦ ドメインエキスパート(法務の専門家)

    が想定される質問文とダミー契約書を作成 ◦ ドメインエキスパートが Agent の回答を評価 ◦ 評価が低い質問を1件ずつ改善
  4. 現在の精度改善フロー 6 ユースケース定義 評価セット構築 (必要に応じて評価データ拡張) 回答文の評価 (LLM as a judge)

    検索単体評 価 (Recall / NDCG) 失敗分析 (Tool call traceなど) 改善施策 (プロンプト/ 検索ロジック 修正) 再評価
  5. 改善サイクルが長い課題への対応 LLM as a Judgeの導入 8 • ドメインエキスパートが質問文と正解データを作成 ◦ 生成結果を評価する正解データ

    (回答に含まれるべきキーポイント ) ◦ 検索の正解ドキュメント (根拠として参照すべきドキュメント) 重要度 生成の評価 > 検索の評価
  6. 生成を評価する指標 10 • なぜキーポイントか • なぜCustom Metricを実装したか ◦ ドメインエキスパートが毎回「完全な模範解答」を作るのは負荷が高い ◦

    表現の揺れは許容しつつ、重要な論点がカバーされているか ◦ Ragas標準の指標を試したが安定した結果は得られなかった
  7. 改善サイクルが長い課題への対応 検索単体の評価セット構築 11 → Agentを介さず、短時間で評価が完了 • 検索API単体の評価が必要な理由 • 評価セットの作り方 •

    評価指標: Recall, NDCG ◦ 検索ロジックだけを高速に検証したい (e.g. rerankerのモデルを検証) ◦ Agentを毎回動かすと時間がかかる & Agent起因の問題と切り分けたい ◦ Tool call トレースから検索APIの呼び出しパラメータを抽出 (クエリ、フィルタ条件、ソート条件など)
  8. 課題② 失敗原因分析に時間がかかる 12 • 失敗要因はさまざま 課題: どこで失敗したのかを特定するのに時間がかかる ◦ ツール選択のミス ◦

    ツールパラメータ生成の誤り(ツール ◦ 検索ロジックの改善余地 ◦ 回答生成プロンプトの問題 ◦ Agent側の実装のバグ
  9. 原因分析に時間がかかる課題への対応 必要な情報を全て結果に出力 13 • 分析に必要な情報を CSVに出力 これにより 今後の改善案 AI Coding

    Editor にCSVの全ての情報を見せて「失敗原因を自動で特定する」仕組みの導入 ◦ Tool callトレース ◦ LLM-as-a-Judgeのスコアとreasonin ◦ 正解ドキュメントの中身 ..etc これにより失敗原因の特定までの時間が短縮
  10. 局所的な修正になる課題への対応 評価セットの拡張 15 ドメインエキスパートがチェック • 現状の評価セットのユースケースをベースに質問文を生成 効果 評価ケース数が増えることで、改善施策の効果を信頼性高く検証できる • (そもそも評価セットが少ない場合)

    契約書からLLMで質問文と正解キーポイントを生成させる 言い回しや抽象度を変えたバリエーションを作る 改善対象のプロンプトやユースケースを元に、LLMで類似質問文を生成 •
  11. 課題④ ユーザーが感じる精度とのギャップ 16 • 課題の背景 • 結果として : オフライン評価では良くても、ユーザーの体感精度は悪いという現象が発生 ◦

    評価セットのプロンプトと、実際のユーザー質問に乖離がある可能性 ◦ 評価で使っている契約書と、実際にユーザーが持っている契約書が異なる
  12. 現在の精度改善フロー (再掲) 18 ユースケース定義 評価セット構築 (必要に応じて評価データ拡張) 回答文の評価 (LLM as a

    judge) 検索単体評 価 (Recall / NDCG) 失敗分析 (Tool call traceなど) 改善施策 (プロンプト/ 検索ロジック 修正) 再評価
  13. 今後の改善 19 • 評価セット構築の効率化 : ツール数 × リージョン数分の評価セットを効率よく作る • 継続的な評価

    : 定期的な自動評価 (Nightly benchmark), CI上での評価実行 • 失敗原因分析の自動化 : 失敗ケースに対して、LLMが原因・改善案を提案する仕組み • ツール選択の評価セット構築 : ツールが増えていくにつれて、ツール選択の精度が重要になる