Slide 1

Slide 1 text

Contract One における 契約書解析技術の開発 Sansan株式会社 技術本部 研究開発部 保坂 ⼤樹

Slide 2

Slide 2 text

© Sansan, Inc. ⾃⼰紹介 保坂 ⼤樹 Taiju Hosaka Sansan株式会社 技術本部 研究開発部 Data Analysis Group 研究員 ・2020/03 早稲⽥⼤学⼤学院創造理⼯学研究科経営システム⼯学専攻 修了 ・2020/04 Sansan株式会社 ⼊社 ・現在は、請求書や契約書の解析技術の開発に従事 2/17

Slide 3

Slide 3 text

© Sansan, Inc. 契約データベースから、収益を最⼤化する 契約データベース「Contract One」 あらゆる契約書を正確にデータ化し、 全社で契約情報を活⽤できるようにする、 これまでにない契約データベースです。 3/17

Slide 4

Slide 4 text

© Sansan, Inc. 紙の契約書 紙 デ ジ タ ル PDFデータ OCR オペレーター 補正 × 契約データベースを 構築 収益の最⼤化 締結〜管理 法務部⾨ 事業部⾨ 事業変⾰を リードする より有利な ビジネスへ導く 活⽤ 電⼦契約 Contract Oneの提供価値 4/17

Slide 5

Slide 5 text

© Sansan, Inc. 契約書解析技術の開発 Contract Oneアプリケーション上と、裏側のデータ化システム上のそれぞれで技術開発を⾏っている。 経営 法務・総務 ビジネス × ユーザ アプリケーション データ化システム ・契約書の検索 ・契約書の関連付け ・契約期限の管理 ⋮ ・スケーラブルなデータ化 ・⾼精度なデータ化 ※ 守秘義務を負ったオペレーターがデータ化を⾏っています。 5/17

Slide 6

Slide 6 text

データ化システムにおける技術開発 6/17

Slide 7

Slide 7 text

© Sansan, Inc. 契約書のデータ化 初期流⼊ 定常流⼊ データベース化 オペレータによる ⼊⼒/補正 エンジンによる 契約書解析 ・データ化項⽬の抽出 ・契約書のアノテーション ・契約書の⾔語判定 ⋮ 契約書解析エンジン Mitra プロダクト成⻑に伴う流⼊増加 に対する規模の拡⼤が課題 7/17

Slide 8

Slide 8 text

© Sansan, Inc. BERTopic[1] による類似契約書グルーピング 初期流⼊ 類似契約書のグルーピング 同⼀のグループを同⼀のオペレータに割り当てることで、作業効率の向上を図る。 ※ 守秘義務を負ったオペレーターがデータ化を⾏っています。 8/17 契約書 タイプA 契約書 タイプB 契約書 タイプC 契約書

Slide 9

Slide 9 text

© Sansan, Inc. BERTopic の概要 ⋮ Sentence-BERT[2] によるベクトル化 UMAP[3] による 次元削減 HDBSCAN[4] によるクラスタリング 単語や⽂脈の意味を考慮して⽂書集合のクラスタリングを⾏う。 ノイズをモデル化しており、ノイズとなる⽂書の存在によるクラスタリングの品質低下が発⽣しにくい。 9/17 Science Sports Others

Slide 10

Slide 10 text

© Sansan, Inc. BERTopic 活⽤のポイント 契約書作成の背後には、雛形の存在がある →同⼀の雛形から作成された契約書をグループとして捉えることが有効 ⼊⼒⽂書は契約書であり、異なる雛形でも多くの単語が共通している → ⽂脈を考慮した意味ベクトルを学習することが有効 雛形に従わない、単発で結ばれる契約書も多く存在する → クラスタリングにおいてノイズを考慮することが有効 10/17

Slide 11

Slide 11 text

© Sansan, Inc. 複数のデータセットを⽤意し、項⽬⼊⼒の作業量の削減率を測定した → データセットにより、作業の削減率は⼤きく異なる → 同⼀フォーマットの契約書の割合に依存していると考えられる BERTopic による作業改善の結果 11/17 タイトル⼊⼒時間の削減率 契約締結⽇⼊⼒時間の削減率 データセットA データセットB データセットC 0% 11.44% 25.74% 3.45% 14.71% 10.33%

Slide 12

Slide 12 text

アプリケーションにおける技術開発 12/17

Slide 13

Slide 13 text

© Sansan, Inc. Contract One への⼤規模⾔語モデルの活⽤ ⼤規模⾔語モデルが利⽤しやすくなったことにより、 対話型の機能や要約に関する機能を⾼速に検証し、サービスに活⽤することが容易になった。 契約書は専⾨⽤語が多く使われていたり、⽂章量が多いことから、これらの機能との相性が良い。 ⼤規模⾔語モデル 契約書 × AI ⽂書内検索機能 AI 要約機能 13/17

Slide 14

Slide 14 text

© Sansan, Inc. 契約書要約機能 専⾨的で難しい⽂⾔を分かりやすい表現に変更しながら契約書を要約する。 契約や法律の知識がなくても、複雑な契約書の内容を把握できるようにすることが⽬的である。 Contract One が提供する価値として、全社員が契約情報をビジネスで活⽤することにつながっている。 14/17

Slide 15

Slide 15 text

© Sansan, Inc. 契約書要約機能の検証⼿順 契約書類型の整理 評価観点の定義 契約書類型ごとの プロンプト作成/改善 定義した 観点の評価 ⾮機能要件を 満たすことの検証 改善サイクルを⾼速に回せるように、評価できる形で事業部と性能要件を定義した。 プロダクトマネジャー 研究員 主な作業者 ○ ○ ○ ○ ○ ○ - - 15/17

Slide 16

Slide 16 text

© Sansan, Inc. 参考⽂献 1. M. Grootendorst, "BERTopic: Neural topic modeling with a class-based TF-IDF procedure", arXiv preprint arXiv:2203.05794, 2022. 2. N. Reimers and I. Gurevych, "Sentence-BERT: Sentence Embeddings using Siamese BERT- Networks”, Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, pp.3982-3992, 2019. 3. L. McInnes, J. Healy and J. Melville, "UMAP: Uniform Manifold Approximation and Projection", Journal of Open Source Software, Vol.3, No.29, 861, 2018. 4. R. J. G. B. Campello, D. Moulavi and J. Sander, "Density-based clustering based on hierarchical density estimates”, Advances in the 17th Pacific-Asia Conference on Knowledge Discovery and Data Mining, pp.160-172, 2013. 16/17

Slide 17

Slide 17 text

© Sansan, Inc. 17/17