Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LegalOn Assistantの契約書検索

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
300

LegalOn Assistantの契約書検索

Avatar for LegalOn Technologies, Inc

LegalOn Technologies, Inc PRO

December 12, 2025
Tweet

More Decks by LegalOn Technologies, Inc

Transcript

  1. 2 本資料は貴社の便宜のためのみに提供されるものであり、複写、引用または第三者の閲覧に共される際は株式会社LegalOn Technologiesの了承を得てください。また、当該資料の利用により直接または間接に生じた損害や損失等について、株式会社LegalOn Technologiesは一切の責任を負いません。©LegalOn Technologies, Inc. all rights reserved. •

    名前: 福田 隆 • 2025/2から検索推薦チームに join • やってきたこと ◦ テキストマイニングシステム ▪ Solr/Elasticsearchのplugin開発 ◦ 雑多な検索アプリケーションの backend開発 ◦ 最近はRAGなど • 趣味 ◦ カメラ ◦ 健康情報漁り ◦ 植物栽培 自己紹介
  2. 4 本資料は貴社の便宜のためのみに提供されるものであり、複写、引用または第三者の閲覧に共される際は株式会社LegalOn Technologiesの了承を得てください。また、当該資料の利用により直接または間接に生じた損害や損失等について、株式会社LegalOn Technologiesは一切の責任を負いません。©LegalOn Technologies, Inc. all rights reserved. LegalOnアシスタントの契約書検索

    (=契約書検索 RAG) ユーザーは契約書をLegalOnにアップロードする ユーザーからの質問文に対してアップロードされた契約書をもとに回答 • XXX社との業務委託契約見せて • (あの契約書どこいったっけ ...) • YYY社との契約の委託料を教えて • (契約書の中の具体的な内容を把握したい ) • 瑕疵担保責任について書かれた契約書を教えて • この契約書と似た内容の契約書を出して • (新しい契約書のドラフト時に他の契約書の書き方を参考にしたい ...)
  3. 5 本資料は貴社の便宜のためのみに提供されるものであり、複写、引用または第三者の閲覧に共される際は株式会社LegalOn Technologiesの了承を得てください。また、当該資料の利用により直接または間接に生じた損害や損失等について、株式会社LegalOn Technologiesは一切の責任を負いません。©LegalOn Technologies, Inc. all rights reserved. 契約書検索の問題設定

    • 契約書検索のフィールド • タイトル • ファイル名 • 本文 • ステータス —-↓本文から自動抽出---- • 取引先名 • 契約書類型 • 契約期間 • 契約状態 • etc • メタデータフィールド多め、本文長め • 本文/メタデータの情報の条件を組み合わせつつ検索 し、ユーザーに必要な情報を返す
  4. 6 本資料は貴社の便宜のためのみに提供されるものであり、複写、引用または第三者の閲覧に共される際は株式会社LegalOn Technologiesの了承を得てください。また、当該資料の利用により直接または間接に生じた損害や損失等について、株式会社LegalOn Technologiesは一切の責任を負いません。©LegalOn Technologies, Inc. all rights reserved. 初期のLegalOnアシスタントの契約書検索

    UIでユーザー画面向けに開発された内部検索 APIを 包む形でRAGを作成 クエリ生成 (LLM) 検索 回答生成 (LLM) 質問文 回答文 XXX社との業務委託契 約の契約期間を教えて query: 契約期間 filter: 取引先名: XXX社 契約書類型: 業務委託 ヒットした契約書を返却 XXX社との契約書YYYが 見つかりました。契約期間 は...と記載があります.... ※契約書検索のUIのイメージ
  5. 7 本資料は貴社の便宜のためのみに提供されるものであり、複写、引用または第三者の閲覧に共される際は株式会社LegalOn Technologiesの了承を得てください。また、当該資料の利用により直接または間接に生じた損害や損失等について、株式会社LegalOn Technologiesは一切の責任を負いません。©LegalOn Technologies, Inc. all rights reserved. 施策1:

    検索条件の緩和① • 課題: ゼロリザルトが多発 ◦ “該当する契約書が見つかりませんでした。 ” • LLMが ”おせっかい” なフィルター条件やキーワードを追加する ◦ “秘密情報をやり取りする際に使えそうな契約書を教えてください。 ” ▪ 生成されたフィルタ • 契約類型: 秘密保持契約 • ステータス: 締結済み ◦ 範囲が狭まりすぎてヒットしない • 条件はあってても、自動抽出フィールドの値が間違っている ◦ 取引先名が未抽出 • (ユーザーの使い勝手に合わせた検索 API≠RAGで利用する検索API)
  6. 8 本資料は貴社の便宜のためのみに提供されるものであり、複写、引用または第三者の閲覧に共される際は株式会社LegalOn Technologiesの了承を得てください。また、当該資料の利用により直接または間接に生じた損害や損失等について、株式会社LegalOn Technologiesは一切の責任を負いません。©LegalOn Technologies, Inc. all rights reserved. 施策1:

    検索条件の緩和② 施策 説明 スコア改善幅 特定のフィールドを積極的に使わ ないように指示する LLMが勘違いしやすいフィールドに関して、 promptでユーザーが言及しない限り使わない ように指示 中 検索演算子(AND/OR/括弧)を活 用したクエリ構築 - 検索APIがサポートしている、 AND, OR, ()などを活用するように指示 - ORのsyntaxを活用して同義語展開も行うよう依頼 例) 許諾なく第三者に情報を公開してはならない旨が記載してある契約書をさがして Before: 許諾 第三者 公開 After: (許諾 OR 同意 OR 承諾) AND 第三者 AND 公開 中 フィルタ条件を必須条件から 優先条件(Boost条件)に変更 する Before: すべてのフィルタ条件に合致しないと回答生成のコンテキストに含まれない After: フィルタ条件に合致するほどランキングが上位にくる。 部分的に条件を満たしているドキュメントも拾える (回答生成時に使うか使わないかを LLMが判断してくれる) LLMが生成するフィルタ条件の誤りや自動抽出フィールドの間違いをカバー デメリット: 正確なヒット件数がわからなくなる 高
  7. 9 本資料は貴社の便宜のためのみに提供されるものであり、複写、引用または第三者の閲覧に共される際は株式会社LegalOn Technologiesの了承を得てください。また、当該資料の利用により直接または間接に生じた損害や損失等について、株式会社LegalOn Technologiesは一切の責任を負いません。©LegalOn Technologies, Inc. all rights reserved. 施策2:

    Rerankerの導入① • 入力コンテキスト ◦ 長すぎるとlatencyに影響する ◦ 全文ではなく、質問に関係のありそうな箇所だけ ▪ e.g.Elasticsearch/Solrのハイライト • 以下のパターンで精度を検証 ◦ 専用モデル:Rerankのタスク向けに訓練されたモデル、軽 量で早め ▪ Alibaba-NLP/gte-multilingual-reranker-base (Hugging Face) ▪ Voyage AI: reranker-2.5 ◦ LLM reranker ▪ 汎用LLMをrerankのタスクに利用、遅め ▪ LLMのprompt上で質問文と文書の一覧を見せて、 10段階評価してもらい評価の高い順に出力 ▪ GPT-4.1
  8. 10 本資料は貴社の便宜のためのみに提供されるものであり、複写、引用または第三者の閲覧に共される際は株式会社LegalOn Technologiesの了承を得てください。また、当該資料の利用により直接または間接に生じた損害や損失等について、株式会社LegalOn Technologiesは一切の責任を負いません。©LegalOn Technologies, Inc. all rights reserved. •

    以下の調節と組み合わせることでスコアが改善 ◦ コンテキストにフィールドを追加 ▪ “ステータスがxxxの契約書を出して ” -> ステータスのフィールドがないと正しく関連度を考慮できない ◦ コンテキストに含める本文の取得箇所を増やす ◦ rerankerへの入力文書数の追加 ◦ 検索条件をさらに緩和 • 最終的にvoyage rerankerを使った場合が精度が最も良く、速度も最も早かった • LLM rerankerがうまくいかない理由 ◦ 順序付けが苦手かも?(仮説) ▪ 入力文書数が低いと LLM rerankerが最もよかった 施策2: Rerankerの導入②
  9. 11 本資料は貴社の便宜のためのみに提供されるものであり、複写、引用または第三者の閲覧に共される際は株式会社LegalOn Technologiesの了承を得てください。また、当該資料の利用により直接または間接に生じた損害や損失等について、株式会社LegalOn Technologiesは一切の責任を負いません。©LegalOn Technologies, Inc. all rights reserved. 施策3:

    ベクトル検索の導入検討 界隈ではRAGといえばベクトル検索だが現状は保留中 • ベクトル検索やハイブリッド検索でキーワード検索のスコアを現状越えられていない 理由(仮説) • 契約書は似たような言い回しが多くありベクトル検索で違いを見抜くのが難しい • 契約書には”常套句”が多数登場 • 雛形による契約書の生成 • Boosting由来のスコアとベクトル検索のスコアのバランスが難しい 移行コスト • 使うストレージの増大 • reindexのコストの増大