契約書データ化サービスの⽴ち上げに携わり学んだこと / What I've learned from being involved in a new business, contract digitization services

契約書データ化サービスの⽴ち上げに携わり学んだこと Sansan株式会社 DSOC R&D 研究員保坂⼤樹

Data Strategy and Operation Center ⾃⼰紹介 • 2020/03 早稲⽥⼤学創造理⼯学研究科経営システム⼯学専攻修了
• 2020/04 Sansan株式会社⼊社保坂⼤樹 Taiju Hosaka Sansan 株式会社 DSOC（Data Strategy & Operation Center） R&D Data Analysis Group 研究員オンライン名刺

Data Strategy and Operation Center 新卒とプロジェクトの関わり 2 最初のプロジェクトに関わり始めるのは 4⽉中旬ごろ •
バックグラウンドを考慮した技術領域を担当 • メンター制度⽴ち上がっているプロジェクトは多岐にわたる • 名刺のデータ化、ニュース配信、転職マッチング… • 必要とされる技術も多様である > 画像処理、⾃然⾔語処理、機械学習、ネットワーク分析…

Data Strategy and Operation Center 携わったプロジェクト 3 ニュース配信 4 ⽉
6 ⽉契約書データ化 8 ⽉ 10 ⽉完全在宅勤務ビジネスニュースの判定モデル構築今⽇はこちらの話をします

Data Strategy and Operation Center 契約書PDF⼊⼒／データ化システム契約書PDF⼊⼒/ データ化システム⼊⼒データ化
⾃動化エンジンオペレーター名刺データ化ノウハウを活かした、契約書データ化システム契約書PDF 契約書データユーザ企業

Data Strategy and Operation Center 契約書データ化サービスのリリース • 弁護⼠ドットコム株式会社と連携したサービス「クラウドサイン AI」が今年
8⽉にリリース • 契約書データ化プロジェクトは⽴ち上がったばかり

Data Strategy and Operation Center 契約書データ化サービスにおける研究開発契約書項⽬の抽出

Data Strategy and Operation Center 契約書データ化サービスにおける研究開発⾃動データ化エンジンの研究/開発 • PDF を⼊⼒とする
> 画像、テキスト、オブジェクトの座標集合の形式で扱うことが可能 > PDF を解析するための最近の研究 - ⽂字の座標を考慮した⾔語モデル (Xu et al., 2020) - テキストの意味を考慮したPDF画像の構造解析 (Yang et al., 2017) • 様々なタスクの組み合わせでデータ化を⾏う > OCR、構造解析、固有表現抽出…

Data Strategy and Operation Center 新規事業における研究開発契約書データ化プロジェクトは新規事業 • 研究開発を⾏うには少し特殊な状況 >
修⼠時代の研究とは環境がガラリと変わった新規事業における研究開発のハードル 1. 構築したモデルの組み込み 2. サービス環境の変動のしやすさ

Data Strategy and Operation Center 構築したモデルの組み込みなぜ難しいか？ • 組み込み先のシステムが出来たてホヤホヤ >
開発陣はタスクが⼭積み > 付加価値となるモデルは優先度が⾼くない • せっかくモデルを構築しても、使われなければ意味がない

Data Strategy and Operation Center 構築したモデルの組み込み研究成果を売り込む • 意思決定を⾏う⼈と
⼿を動かす⼈に対して • デモ作成、API化の重要性 > テキスト、会話をするよりも⾮常に効果的 > 3回話した内容をデモ化したら、向こうから聞いてくるようになった • クリティカルな数字を出す > ⽇々売り込み相⼿が気にしている数字に寄り添う

Data Strategy and Operation Center サービス環境の変動のしやすさなぜ難しいか？ • 短期間でデータの性質が⼤きく変わりうる •
本番環境におけるモデルの性能も⼤きく変動する > データの変化に応じて、モデルを改修していくことが必要「⽣き残る種とは、最も強いものではない。最も知的なものでもない。それは、変化に最もよく適応したものである」 Charles Robert Darwin

Data Strategy and Operation Center サービス環境の変動のしやすさモデルにフィードバックループを導⼊ • 本番環境のエラーを検知し、すぐに改修できる仕組みを構築 >
オペレータによる⼊⼒補助でエラー検知 > 改修しやすいモデルの構築が必要 > 改修したら評価を⾏う • オペレータによる⼊⼒補助でデータ化の質を担保実験管理エラー監視

Data Strategy and Operation Center まとめ • 新規事業の研究開発はやや特殊な環境 > 研究成果を売り込むことが⼤切
> 改修しやすいモデルを構築する • ⼊社半年で貴重な経験をした

Data Strategy and Operation Center 参考⽂献 • Xu, Y., Li,
M., Cui, L., Huang, S., Wei, F. and Zhou, M. “LayoutLM: Pre-Training of Text and Layout for Document Image Understanding”, Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp.1192-1200, 2020 • Yang, X., Yumer, E., Asente, P., Kraley, M., Kifer, D. and Giles, C. “Learning to Extract Semantic Structure from Documents Using Multimodal Fully Convolutional Neural Networks. ”, Proceedings of the Conference on Computer Vision and Pattern Recognition, pp.4342-4351, 2017

契約書データ化サービスの⽴ち上げに携わり学んだこと / What I've learned f...

契約書データ化サービスの⽴ち上げに携わり学んだこと / What I've learned from being involved in a new business, contract digitization services

Sansan DSOC

More Decks by Sansan DSOC

Other Decks in Technology

Featured

Transcript

契約書データ化サービスの⽴ち上げに携わり学んだこと Sansan株式会社 DSOC R&D 研究員保坂⼤樹

Data Strategy and Operation Center ⾃⼰紹介 • 2020/03 早稲⽥⼤学創造理⼯学研究科経営システム⼯学専攻修了

Data Strategy and Operation Center 新卒とプロジェクトの関わり 2 最初のプロジェクトに関わり始めるのは 4⽉中旬ごろ •

Data Strategy and Operation Center 携わったプロジェクト 3 ニュース配信 4 ⽉

Data Strategy and Operation Center 契約書PDF⼊⼒／データ化システム契約書PDF⼊⼒/ データ化システム⼊⼒データ化

Data Strategy and Operation Center 契約書データ化サービスのリリース • 弁護⼠ドットコム株式会社と連携したサービス「クラウドサイン AI」が今年

Data Strategy and Operation Center 契約書データ化サービスにおける研究開発契約書項⽬の抽出

Data Strategy and Operation Center 契約書データ化サービスにおける研究開発⾃動データ化エンジンの研究/開発 • PDF を⼊⼒とする

Data Strategy and Operation Center 新規事業における研究開発契約書データ化プロジェクトは新規事業 • 研究開発を⾏うには少し特殊な状況 >

Data Strategy and Operation Center 構築したモデルの組み込みなぜ難しいか？ • 組み込み先のシステムが出来たてホヤホヤ >

Data Strategy and Operation Center 構築したモデルの組み込み研究成果を売り込む • 意思決定を⾏う⼈と

Data Strategy and Operation Center サービス環境の変動のしやすさなぜ難しいか？ • 短期間でデータの性質が⼤きく変わりうる •

Data Strategy and Operation Center サービス環境の変動のしやすさモデルにフィードバックループを導⼊ • 本番環境のエラーを検知し、すぐに改修できる仕組みを構築 >

Data Strategy and Operation Center まとめ • 新規事業の研究開発はやや特殊な環境 > 研究成果を売り込むことが⼤切

Data Strategy and Operation Center 参考⽂献 • Xu, Y., Li,