Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Contract One における契約書解析技術の開発 / Development of Co...

Sansan R&D
December 22, 2023

Contract One における契約書解析技術の開発 / Development of Contract Analysis Technology in Contract One

■イベント:CCSE2023
https://ccse.jp/2023/

■登壇概要
タイトル:Contract One における契約書解析技術の開発
発表者:技術本部 研究開発部 Data Analysisグループ 保坂 大樹

■研究開発職 採用情報
https://media.sansan-engineering.com/randd

■Sansan Tech Blog
https://buildersbox.corp-sansan.com/

Sansan R&D

December 22, 2023
Tweet

More Decks by Sansan R&D

Other Decks in Technology

Transcript

  1. © Sansan, Inc. ⾃⼰紹介 保坂 ⼤樹 Taiju Hosaka Sansan株式会社 技術本部

    研究開発部 Data Analysis Group 研究員 ・2020/03 早稲⽥⼤学⼤学院創造理⼯学研究科経営システム⼯学専攻 修了 ・2020/04 Sansan株式会社 ⼊社 ・現在は、請求書や契約書の解析技術の開発に従事 2/17
  2. © Sansan, Inc. 紙の契約書 紙 デ ジ タ ル PDFデータ

    OCR オペレーター 補正 × 契約データベースを 構築 収益の最⼤化 締結〜管理 法務部⾨ 事業部⾨ 事業変⾰を リードする より有利な ビジネスへ導く 活⽤ 電⼦契約 Contract Oneの提供価値 4/17
  3. © Sansan, Inc. 契約書解析技術の開発 Contract Oneアプリケーション上と、裏側のデータ化システム上のそれぞれで技術開発を⾏っている。 経営 法務・総務 ビジネス ×

    ユーザ アプリケーション データ化システム ・契約書の検索 ・契約書の関連付け ・契約期限の管理 ⋮ ・スケーラブルなデータ化 ・⾼精度なデータ化 ※ 守秘義務を負ったオペレーターがデータ化を⾏っています。 5/17
  4. © Sansan, Inc. 契約書のデータ化 初期流⼊ 定常流⼊ データベース化 オペレータによる ⼊⼒/補正 エンジンによる

    契約書解析 ・データ化項⽬の抽出 ・契約書のアノテーション ・契約書の⾔語判定 ⋮ 契約書解析エンジン Mitra プロダクト成⻑に伴う流⼊増加 に対する規模の拡⼤が課題 7/17
  5. © Sansan, Inc. BERTopic の概要 ⋮ Sentence-BERT[2] によるベクトル化 UMAP[3] による

    次元削減 HDBSCAN[4] によるクラスタリング 単語や⽂脈の意味を考慮して⽂書集合のクラスタリングを⾏う。 ノイズをモデル化しており、ノイズとなる⽂書の存在によるクラスタリングの品質低下が発⽣しにくい。 9/17 Science Sports Others
  6. © Sansan, Inc. 契約書要約機能の検証⼿順 契約書類型の整理 評価観点の定義 契約書類型ごとの プロンプト作成/改善 定義した 観点の評価

    ⾮機能要件を 満たすことの検証 改善サイクルを⾼速に回せるように、評価できる形で事業部と性能要件を定義した。 プロダクトマネジャー 研究員 主な作業者 ◦ ◦ ◦ ◦ ◦ ◦ - - 15/17
  7. © Sansan, Inc. 参考⽂献 1. M. Grootendorst, "BERTopic: Neural topic

    modeling with a class-based TF-IDF procedure", arXiv preprint arXiv:2203.05794, 2022. 2. N. Reimers and I. Gurevych, "Sentence-BERT: Sentence Embeddings using Siamese BERT- Networks”, Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, pp.3982-3992, 2019. 3. L. McInnes, J. Healy and J. Melville, "UMAP: Uniform Manifold Approximation and Projection", Journal of Open Source Software, Vol.3, No.29, 861, 2018. 4. R. J. G. B. Campello, D. Moulavi and J. Sander, "Density-based clustering based on hierarchical density estimates”, Advances in the 17th Pacific-Asia Conference on Knowledge Discovery and Data Mining, pp.160-172, 2013. 16/17