Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

LegalドメインにおけるRAG精度改善フロー

 LegalドメインにおけるRAG精度改善フロー

Avatar for LegalOn Technologies, Inc

LegalOn Technologies, Inc PRO

December 12, 2025
Tweet

More Decks by LegalOn Technologies, Inc

Transcript

  1. 検索ツールの例 2 • 契約書検索ツール • 関連契約書検索ツール • WebSearchツール ◦ 契約書・条文を探す際に使われる

    ◦ フィルタリングが可能 (例: 取引先名、契約類型、契約締結日など) ◦ 基本契約と覚書など、親子関係を特定する ◦ 法令・判例など、外部の一次情報を知る必要がある場合
  2. Legalドメインにおける精度改善の難しさ (面白さ) 3 • 深いドメイン知識が要求される • セキュリティ要件が高い • マルチリージョン対応 ◦

    法務の業務フローを深く理解する ◦ ドメインエキスパート(法務の専門家)と密にコミュニケーションを取る必要 ◦ ログや契約書データへのアクセスが制限されている ◦ ユーザーが実際に体感している精度を把握しにくい ◦ 法律がリージョンごとに異なる (× リージョン数分の評価)
  3. 初期の精度改善フロー 4 • 評価セットの作成 • 評価 • 改善 ◦ ドメインエキスパート(法務の専門家)

    が想定される質問文とダミー契約書を作成 ◦ ドメインエキスパートが Agent の回答を評価 ◦ 評価が低い質問を1件ずつ改善
  4. 現在の精度改善フロー 6 ユースケース定義 評価セット構築 (必要に応じて評価データ拡張) 回答文の評価 (LLM as a judge)

    検索単体評 価 (Recall / NDCG) 失敗分 析 (Tool call traceなど) 改善施 策 (プロンプト/検索ロジック修正) 再評価
  5. 改善サイクルが長い課題への対応 LLM as a Judgeの導入 8 • ドメインエキスパートが質問文と正解データを作成 ◦ 生成結果を評価する正解データ

    (回答に含まれるべきキーポイント ) ◦ 検索の正解ドキュメント (根拠として参照すべきドキュメント) 重要度 生成の評価 > 検索の評価
  6. 生成を評価する指標 10 • なぜキーポイントか • なぜCustom Metricを実装したか ◦ ドメインエキスパートが毎回「完全な模範解答」を作るのは負荷が高い ◦

    表現の揺れは許容しつつ、重要な論点がカバーされているか ◦ Ragas標準の指標を試したが安定した結果は得られなかった
  7. 改善サイクルが長い課題への対応 検索単体の評価セット構築 11 → Agentを介さず、短時間で評価が完了 • 検索API単体の評価が必要な理由 • 評価セットの作り方 •

    評価指標: Recall, NDCG ◦ 検索ロジックだけを高速に検証したい (e.g. rerankerのモデルを検証) ◦ Agentを毎回動かすと時間がかかる & Agent起因の問題と切り分けたい ◦ Tool call トレースから検索APIの呼び出しパラメータを抽出 (クエリ、フィルタ条件、ソート条件など)
  8. 課題② 失敗原因分析に時間がかかる 12 • 失敗要因はさまざま 課題: どこで失敗したのかを特定するのに時間がかかる ◦ ツール選択のミス ◦

    ツールパラメータ生成の誤り(ツール ◦ 検索ロジックの改善余地 ◦ 回答生成プロンプトの問題 ◦ Agent側の実装のバグ
  9. 原因分析に時間がかかる課題への対応 必要な情報を全て結果に出力 13 • 分析に必要な情報を CSVに出力 これにより 今後の改善案 AI Coding

    Editor にCSVの全ての情報を見せて「失敗原因を自動で特定する」仕組みの導入 ◦ Tool callトレース ◦ LLM-as-a-Judgeのスコアとreasonin ◦ 正解ドキュメントの中身 ..etc これにより失敗原因の特定までの時間が短縮
  10. 局所的な修正になる課題への対応 評価セットの拡張 15 ドメインエキスパートがチェック • 現状の評価セットのユースケースをベースに質問文を生成 効果 評価ケース数が増えることで、改善施策の効果を信頼性高く検証できる • (そもそも評価セットが少ない場合)

    契約書からLLMで質問文と正解キーポイントを生成させる 言い回しや抽象度を変えたバリエーションを作る 改善対象のプロンプトやユースケースを元に、LLMで類似質問文を生成 •
  11. 課題④ ユーザーが感じる精度とのギャップ 16 • 課題の背景 • 結果として : オフライン評価では良くても、ユーザーの体感精度は悪いという現象が発生 ◦

    評価セットのプロンプトと、実際のユーザー質問に乖離がある可能性 ◦ 評価で使っている契約書と、実際にユーザーが持っている契約書が異なる
  12. 現在の精度改善フロー 18 ユースケース定義 評価セット構築 (必要に応じて評価データ拡張) 回答文の評価 (LLM as a judge)

    検索単体評 価 (Recall / NDCG) 失敗分 析 (Tool call traceなど) 改善施 策 (プロンプト/検索ロジック修正) 再評価
  13. 今後の改善 19 • 評価セット構築の効率化 : ツール数 × リージョン数分の評価セットを効率よく作る • 継続的な評価

    : 定期的な自動評価 (Nightly benchmark), CI上での評価実行 • 失敗原因分析の自動化 : 失敗ケースに対して、LLMが原因・改善案を提案する仕組み • ツール選択の評価セット構築 : ツールが増えていくにつれて、ツール選択の精度が重要になる