Upgrade to Pro — share decks privately, control downloads, hide ads and more …

契約書データ化サービスの⽴ち上げに携わり学んだこと / What I've learned from being involved in a new business, contract digitization services

Sansan DSOC
November 13, 2020

契約書データ化サービスの⽴ち上げに携わり学んだこと / What I've learned from being involved in a new business, contract digitization services

■イベント 
:Sansan R&D・エンジニア20卒新卒LT会
https://sansan.connpass.com/event/191627/

■登壇概要
タイトル:契約書データ化サービスの⽴ち上げに携わり学んだこと
発表者: 
DSOC R&D研究員 保坂 ⼤樹

▼Twitter
https://twitter.com/SansanRandD

Sansan DSOC

November 13, 2020
Tweet

More Decks by Sansan DSOC

Other Decks in Technology

Transcript

  1. Data Strategy and Operation Center ⾃⼰紹介 • 2020/03 早稲⽥⼤学創造理⼯学研究科経営システム⼯学専攻 修了

    • 2020/04 Sansan株式会社 ⼊社 保坂 ⼤樹 Taiju Hosaka Sansan 株式会社 DSOC(Data Strategy & Operation Center) R&D Data Analysis Group 研究員 オンライン名刺
  2. Data Strategy and Operation Center 新卒とプロジェクトの関わり 2 最初のプロジェクトに関わり始めるのは 4⽉中旬ごろ •

    バックグラウンドを考慮した技術領域を担当 • メンター制度 ⽴ち上がっているプロジェクトは多岐にわたる • 名刺のデータ化、ニュース配信、転職マッチング… • 必要とされる技術も多様である > 画像処理、⾃然⾔語処理、機械学習、ネットワーク分析…
  3. Data Strategy and Operation Center 携わったプロジェクト 3 ニュース配信 4 ⽉

    6 ⽉ 契約書データ化 8 ⽉ 10 ⽉ 完全在宅勤務 ビジネスニュースの判定モデル構築 今⽇はこちらの話をします
  4. Data Strategy and Operation Center 契約書PDF⼊⼒/データ化システム 契約書PDF⼊⼒/ データ化システム ⼊⼒ データ化

    ⾃動化エンジン オペレーター 名刺データ化ノウハウを活かした、契約書データ化システム 契約書PDF 契約書データ ユーザ企業
  5. Data Strategy and Operation Center 契約書データ化サービスにおける研究開発 ⾃動データ化エンジンの研究/開発 • PDF を⼊⼒とする

    > 画像、テキスト、オブジェクトの座標集合 の形式で扱うことが可能 > PDF を解析するための最近の研究 - ⽂字の座標を考慮した⾔語モデル (Xu et al., 2020) - テキストの意味を考慮したPDF画像の構造解析 (Yang et al., 2017) • 様々なタスクの組み合わせでデータ化を⾏う > OCR、構造解析、固有表現抽出…
  6. Data Strategy and Operation Center 新規事業における研究開発 契約書データ化プロジェクトは新規事業 • 研究開発を⾏うには少し特殊な状況 >

    修⼠時代の研究とは環境がガラリと変わった 新規事業における研究開発のハードル 1. 構築したモデルの組み込み 2. サービス環境の変動のしやすさ
  7. Data Strategy and Operation Center 構築したモデルの組み込み なぜ難しいか? • 組み込み先のシステムが出来たてホヤホヤ >

    開発陣はタスクが⼭積み > 付加価値となるモデルは優先度が⾼くない • せっかくモデルを構築しても、 使われなければ意味がない
  8. Data Strategy and Operation Center 構築したモデルの組み込み 研究成果を売り込む • 意思決定を⾏う⼈ と

    ⼿を動かす⼈に対して • デモ作成、API化の重要性 > テキスト、会話をするよりも⾮常に効果的 > 3回話した内容をデモ化したら、 向こうから聞いてくるようになった • クリティカルな数字を出す > ⽇々売り込み相⼿が気にしている数字に寄り添う
  9. Data Strategy and Operation Center サービス環境の変動のしやすさ なぜ難しいか? • 短期間でデータの性質が⼤きく変わりうる •

    本番環境におけるモデルの性能も⼤きく変動する > データの変化に応じて、モデルを改修していくことが必要 「⽣き残る種とは、最も強いものではない。 最も知的なものでもない。 それは、変化に最もよく適応したものである」 Charles Robert Darwin
  10. Data Strategy and Operation Center サービス環境の変動のしやすさ モデルにフィードバックループを導⼊ • 本番環境のエラーを検知し、すぐに改修できる仕組みを構築 >

    オペレータによる⼊⼒補助でエラー検知 > 改修しやすいモデルの構築が必要 > 改修したら評価を⾏う • オペレータによる⼊⼒補助でデータ化の質を担保 実験管理 エラー監視
  11. Data Strategy and Operation Center 参考⽂献 • Xu, Y., Li,

    M., Cui, L., Huang, S., Wei, F. and Zhou, M. “LayoutLM: Pre-Training of Text and Layout for Document Image Understanding”, Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp.1192-1200, 2020 • Yang, X., Yumer, E., Asente, P., Kraley, M., Kifer, D. and Giles, C. “Learning to Extract Semantic Structure from Documents Using Multimodal Fully Convolutional Neural Networks. ”, Proceedings of the Conference on Computer Vision and Pattern Recognition, pp.4342-4351, 2017