LT資料 - MNTSQの契約書解析を LLMに置き換える話

©MNTSQ, Ltd. MNTSQの契約書解析を LLMに置き換える話 LT資料

©MNTSQ, Ltd. 2 発表の流れ自己紹介 & 会社紹介自己紹介／MNTSQのプロダクト／MNTSQのVision MNTSQの契約書解析をGPT-4oで解くやってみた
いくつかのプロンプトテクニック小ネタ集プロダクションにおける課題いろいろ

©MNTSQ, Ltd. 3 Takumi Hirata • アルゴリズムエンジニア @ MNTSQ株式会社 •
機械学習やその周辺のソフトウェア開発を行っています • 最近はプロダクションにおけるLLM活用を推進しています自己紹介

©MNTSQ, Ltd. 4 ドラフト審査交渉締結集約管理分
析 MNTSQ CLM MNTSQ 自動ドラフティング MNTSQ 案件管理 MNTSQ Connect MNTSQ 契約管理 MNTSQ データベース • 案件受付・アサイン • 審査状況の「見える化」 • ノウハウの自動提案 • リスクの自動検知 • 審査履歴の自動登録 • 電子契約連携 • 紙データのAI-OCR • 電子契約連携 • リスクマネジメント • 契約台帳の自動作成 • 契約期限など自動アラート • ナレッジマネジメント • NO&Tナレッジの活用 • 法務情報の自動分析 • オペレーションコンサル • 既存データの移行サポート • メール連携 • SharePoint・Box連携 • 自社雛型＋NO&T雛型での自動ドラフト • 交渉ポリシー・解説文登録 • 案件に応じた叩き台を自動提案契約業務を軸にしたtoB SaaS

©MNTSQ, Ltd. 5 契約は取引のプログラムもし「リーダブルコード」を弁護士が読んだら？ - MNTSQ Tech Blog より

©MNTSQ, Ltd. 6 すべての合意をフェアにする誰もが一瞬でフェアな契約を結ぶことができればビジネスはもっと加速するリスクの制御ビジネスの加速

©MNTSQ, Ltd. 7 ©MNTSQ, Ltd. 7 MNTSQの契約書解析をGPT-4oで解く十分に発達した科学技術は、魔法と見分けがつかない。 “ クラークの三法則
より

©MNTSQ, Ltd. 8 契約書解析 : 分類・抽出等で契約書を構造化するタスク秘密保持契約書 MNTSQ株式会社(以下、甲とする)とモンテス太郎(以下、乙とする)はXXX業務(以下、本件業務とする)を遂行するにあたって、双方が開示する秘密情報の扱いについて次のとおり合意する。
(定義) 第1条本契約において使用される語句の定義は次の通りとする。 (1)「開示者」とは、本契約の当事者のうち、他方の当事者に本秘密情報を開示する者をいう。 (2) 「受領者」とは、開示者から本秘密情報を受領する者をいう。 (3) 「本秘密情報」とは、… ２．前項にかかわらず、次の各号の一に該当する情報は秘密情報に該当しない。 (1) 取得した時に既に公知、公用となっていたもの (2) … (… 第2条 … 本契約の締結を証するため本書2通を作成し、甲乙記名押印の上、各1通を保有する。 2020年1月1日 .. NER（Named Entity Recognition）文書分類パッセージ分類構造解析照応解析例えばどのような種類の契約書なのかを分類するなど、契約書全体の性質をさまざまな角度から検討しますタイトルの場所や、署名欄の検出といった契約書全体の情報から、「この箇条書きはどの文の下位に属するのか」といった情報まで様々な分析を行います。例えば、以下のような条項の木構造を抽出したりします契約書では定義された単語を参照したり、他の条項を参照することが頻繁に起きます。こういった参照を解決するようなタスクもあります人間は各条項をコンセプトとして捉えています。例えば「反社会的勢力に関する条項」を探したい、といった要望に答えられるように条や項にさまざまなタグを付与したりします誰がいつ契約を結んだか、どれくらいの期間有効な契約なのかなど、契約に関する基本的な情報を検出するのに、NERタスクを解くことは欠かせません

©MNTSQ, Ltd. 9 契約書を構造化してJSONに変換 MNTSQの契約書解析をGPT-4oで解く

©MNTSQ, Ltd. 10 プロンプト MNTSQの契約書解析をGPT-4oで解く OCRで抽出した契約書本文出力のJSONスキーマ（ここが契約書解析の要！）指示

©MNTSQ, Ltd. 11 ©MNTSQ, Ltd. 11 いくつかのプロンプトテクニック 1⃣ PydanticによるJSONスキーマの生成と出力JSONの検査 2⃣
自己参照データモデルによる階層ツリー構造の抽出 3⃣ JSONをunpretty-printしてトークン節約

©MNTSQ, Ltd. 12 Pydanticによるデータモデルの定義 1⃣ PydanticによるJSONスキーマの生成と出力JSONの検査いくつかのプロンプトテクニック契約データ条項データ

©MNTSQ, Ltd. 13 model_json_schema でJSONスキーマを生成 1⃣ PydanticによるJSONスキーマの生成と出力JSONの検査いくつかのプロンプトテクニック

©MNTSQ, Ltd. 14 model_validate_json でGPT-4oの出力JSONを検査 1⃣ PydanticによるJSONスキーマの生成と出力JSONの検査いくつかのプロンプトテクニック

©MNTSQ, Ltd. 15 2⃣ 自己参照データモデルによる階層ツリー構造の抽出いくつかのプロンプトテクニック深さのわからない階層に対して再帰的に抽出自己参照

©MNTSQ, Ltd. 16 2⃣ 自己参照データモデルによる階層ツリー構造の抽出いくつかのプロンプトテクニック深さのわからない階層に対して再帰的に抽出前版にはなかった子要素たち

©MNTSQ, Ltd. 18 3⃣ JSONをunpretty-printしてトークン節約いくつかのプロンプトテクニック JSONのunpretty-printにより約43%のコスト削減トークン数: 金額: 783
$0.003915 443 $0.002215

©MNTSQ, Ltd. 20 ©MNTSQ, Ltd. 20 プロダクションにおける課題 Unfortunately, as anyone
who has worked on shipping real-world software knows, there’s a world of difference between a demo that works in a controlled setting and a product that operates reliably at scale. “ What We’ve Learned From A Year of Building with LLMs より

©MNTSQ, Ltd. 21 コンテキストウィンドウと入力可能なページ数（目安）プロダクションにおける課題コンテキストウィンドウ入力可能なページ数代表的なモデル 8k 16
GPT-4 32k 64 GPT-4 32k 128k 256 GPT-4o 200k 400 Claude 3.5 Sonnet 2,000k 4,000 Gemini 1.5 Pro 最低100ページは入力したい

©MNTSQ, Ltd. 22 モデル選択プロダクションにおける課題 GPT-4o Claude 3.5 Sonnet Gemini
1.5 Pro 契約書解析における精度 ◯ ◎ ◯ コンテキストウィンドウ 128k 200k 2,000k トークンの出力速度 ◯ ◯ △ 価格 ◯ ◎ ◎ 日本リージョンでの利用 △ ✕ ◯ 発表者の主観に基づく評価です

©MNTSQ, Ltd. 24 まだ世にベスプラが存在しない状況でいろいろ決める必要があるプロダクションにおける課題 • ソースコードとプロンプトの分離、および実験管理 ◦ どのソリューションが適切？（PromptLayer, LangSmith,
etc.） • プロンプトの効果的なレビュー方針 ◦ 何を根拠にApproveする？ • 精度改善のアプローチ ◦ MLではデータ増やせばなんとかなったがプロンプトでは...？ • その他、MLOpsに基づくプラクティスの適用 Q&Aや懇親会ではこの辺を議論できると嬉しいです

LT資料 - MNTSQの契約書解析を LLMに置き換える話

LT資料 - MNTSQの契約書解析を LLMに置き換える話

mntsq

More Decks by mntsq

Other Decks in Technology

Featured

Transcript

©MNTSQ, Ltd. MNTSQの契約書解析を LLMに置き換える話 LT資料

©MNTSQ, Ltd. 2 発表の流れ自己紹介 & 会社紹介自己紹介／MNTSQのプロダクト／MNTSQのVision MNTSQの契約書解析をGPT-4oで解くやってみた

©MNTSQ, Ltd. 3 Takumi Hirata • アルゴリズムエンジニア @ MNTSQ株式会社 •

©MNTSQ, Ltd. 4 ドラフト審査交渉締結集約管理分

©MNTSQ, Ltd. 5 契約は取引のプログラムもし「リーダブルコード」を弁護士が読んだら？ - MNTSQ Tech Blog より

©MNTSQ, Ltd. 6 すべての合意をフェアにする誰もが一瞬でフェアな契約を結ぶことができればビジネスはもっと加速するリスクの制御ビジネスの加速

©MNTSQ, Ltd. 7 ©MNTSQ, Ltd. 7 MNTSQの契約書解析をGPT-4oで解く十分に発達した科学技術は、魔法と見分けがつかない。 “ クラークの三法則

©MNTSQ, Ltd. 9 契約書を構造化してJSONに変換 MNTSQの契約書解析をGPT-4oで解く

©MNTSQ, Ltd. 10 プロンプト MNTSQの契約書解析をGPT-4oで解く OCRで抽出した契約書本文出力のJSONスキーマ（ここが契約書解析の要！）指示

©MNTSQ, Ltd. 11 ©MNTSQ, Ltd. 11 いくつかのプロンプトテクニック 1⃣ PydanticによるJSONスキーマの生成と出力JSONの検査 2⃣

©MNTSQ, Ltd. 12 Pydanticによるデータモデルの定義 1⃣ PydanticによるJSONスキーマの生成と出力JSONの検査いくつかのプロンプトテクニック契約データ条項データ

©MNTSQ, Ltd. 13 model_json_schema でJSONスキーマを生成 1⃣ PydanticによるJSONスキーマの生成と出力JSONの検査いくつかのプロンプトテクニック

©MNTSQ, Ltd. 14 model_validate_json でGPT-4oの出力JSONを検査 1⃣ PydanticによるJSONスキーマの生成と出力JSONの検査いくつかのプロンプトテクニック

©MNTSQ, Ltd. 15 2⃣ 自己参照データモデルによる階層ツリー構造の抽出いくつかのプロンプトテクニック深さのわからない階層に対して再帰的に抽出自己参照

©MNTSQ, Ltd. 16 2⃣ 自己参照データモデルによる階層ツリー構造の抽出いくつかのプロンプトテクニック深さのわからない階層に対して再帰的に抽出前版にはなかった子要素たち

©MNTSQ, Ltd. 17 3⃣ JSONをunpretty-printしてトークン節約いくつかのプロンプトテクニック unpretty-printとは、読みやすさのための改行や空白を除去すること

©MNTSQ, Ltd. 18 3⃣ JSONをunpretty-printしてトークン節約いくつかのプロンプトテクニック JSONのunpretty-printにより約43%のコスト削減トークン数: 金額: 783

©MNTSQ, Ltd. 19 3⃣ JSONをunpretty-printしてトークン節約いくつかのプロンプトテクニックプロンプトの変更

©MNTSQ, Ltd. 20 ©MNTSQ, Ltd. 20 プロダクションにおける課題 Unfortunately, as anyone

©MNTSQ, Ltd. 21 コンテキストウィンドウと入力可能なページ数（目安）プロダクションにおける課題コンテキストウィンドウ入力可能なページ数代表的なモデル 8k 16

©MNTSQ, Ltd. 22 モデル選択プロダクションにおける課題 GPT-4o Claude 3.5 Sonnet Gemini

©MNTSQ, Ltd. 23 Lost in the Middle プロダクションにおける課題 ChatGPT -

©MNTSQ, Ltd. 24 まだ世にベスプラが存在しない状況でいろいろ決める必要があるプロダクションにおける課題 • ソースコードとプロンプトの分離、および実験管理 ◦ どのソリューションが適切？（PromptLayer, LangSmith,