Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ビジネス文書に特化した基盤モデル開発 / SaaSxML_Session_2

ビジネス文書に特化した基盤モデル開発 / SaaSxML_Session_2

■ イベント
Sansan & CADDiが語るSaaS R&DとML最前線
https://sansan.connpass.com/event/361003/

■ 発表者
技術本部 研究開発部 Automationグループ
内田 奏

■ 研究開発部 採用情報
https://media.sansan-engineering.com/randd

■ Sansan Tech Blog
https://buildersbox.corp-sansan.com/

Avatar for Sansan R&D

Sansan R&D

July 29, 2025
Tweet

More Decks by Sansan R&D

Other Decks in Technology

Transcript

  1. 1. 基盤モデル開発に⾄る背景 i. Sansanにおける⽂書データ化 ii. 内製OCRエンジン開発を通して⾒えた課題 2. ビジネス⽂書に特化した基盤モデル「Viola」 i. コンセプト

    ii. モデル構造・推論の⼯夫 iii. 価値提供の仕組み 3. 今後の展望 i. 視覚接地した⽂書特化基盤モデル「Cello」の開発 ⽬次 2
  2. 背景: Sansanにおける⽂書データ化 ② ⼈と機械を組み合わせたデータ化システム - 次の観点を数値化しながら運⽤・改善 > Quality : データ化精度

    > Cost : データ化コスト > Delivery : 納品時間 > Security : セキュリティ - R&DはML技術による⾃動化でQCDS改善に貢献 > 例: 名刺特化OCRエンジン「NineOCR」の開発 名刺データ化システム「GEES」 5
  3. 99.9%の壁 - NineOCRをベースにEightのデータ化を完全⾃動化(2023年) > Sansanの精度要件は99.9%、Eightの要件よりもう1段⾼い - Sansanの完全⾃動化までに残された課題: 後処理 > OCR(検出+認識)結果をKey-Value形式に変換する部分

    > サービス仕様に沿って後処理を完全再現するのはほぼ不可能 - GEESの歴史は⻑く、所管は別部署であり、ソフトウェアスタックも異なる - プロダクト⽅針・顧客要望によって常に変化する 背景: OCRエンジン開発を通して⾒えた課題 ① 6
  4. 多プロダクト展開の難しさ - OCRを「直接」学習できるデータはあまり残っていない > OCRの学習には、テキスト矩形と⽣⽂字列が必要 > サービスに必要なのは構造化&正規化されたデータ化結果(≠学習データ) - 名刺でOCRモデルを作れたのはラッキー >

    開発当時の状況 - ⼈⼒でデータ化していた時代の矩形が残っていた - 会社が成⻑して⻑期プロジェクトが実⾏可能になった etc. > 他のプロダクトでは状況が異なる - 汎⽤OCR結果からNLP的な⼿法で抽出するのが主流 & 成⻑途上 背景: OCRエンジン開発を通して⾒えた課題 ② 7
  5. 視覚質問応答(VQA)⽅式の情報抽出によりE2Eなデータ化を実現 - 事前学習: ⽂書画像と汎⽤OCR結果のペアを学習して⽂字認識能⼒を獲得 > 多プロダクト展開可能を念頭において設計 - ファインチューニング: 納品データを学習してデータ化ルールを習得 >

    納品データを直接学習するため後処理不要 Viola: コンセプト Violaによる情報抽出イメージ Violaの学習戦略 名前の由来(諸説あり) - Sansanの⻘と⾚を混ぜると紫(イタリア語で Viola) - Violin が奏でる主旋律(プロダクト)を下から⽀える Viola - Viola-Jones法のように long-standing なエンジンになってほしい etc. 9
  6. GIT [1] ベースのアーキテクチャを採⽤ - 採⽤した理由 > 検証段階で⼗分に性能が出た > Hugging Face

    Transformers [2] にも実装があり参考にできた - シンプルな構成であるため、推論バックエンドの変更に頑健 > 例1: PyTorchに同梱されているFlash Attention 2 [3] への変更が容易 > 例2: ONNX Runtime [4] やTensorRT [5] への変換が容易 Viola: モデル構造 [1] J. Wang et al., “GIT: A Generative Image-to-text Transformer for Vision and Language,” Transactions on Machine Learning Research, 2022. [2] T. Wolf et al., “HuggingFace’s transformers: State-of-the-art natural language processing,” arXiv preprint arXiv:1910.03771, 2019. [3] T. Dao, “FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning,” in The Twelfth International Conference on Learning Representations, 2023. [4] https://onnxruntime.ai/ [5] https://developer.nvidia.com/tensorrt 10
  7. 同時多項⽬推論 - 単項⽬推論: 項⽬間の関係性を明⽰的にモデリング不可能 - 多項⽬推論: ⽂脈として⼊⼒することで明⽰的にモデリング可能 - 性能向上を確認し、NLP2025にて発表 [6]

    Viola: 推論の⼯夫 ① 単項⽬推論と多項⽬推論の⽐較 [6] Mengsay Loem, 保坂⼤樹, “視覚的質問応答による⽂書情報抽出における同時多項⽬推論,” ⾔語処理学会 第31回年次⼤会, 2025. 11
  8. 複数ページ推論 - 請求書や契約書はデータ化項⽬が複数ページにまたがることが多い - Temporal Embeddingを導⼊して複数ページ推論可能とした - Violaの利⽤範囲を拡⼤し、性能に関する分析はJSAI2025にて発表済 [7] Viola:

    推論の⼯夫 ② [7] ⼭内敏嗣, “GIT を活⽤した複数ページ契約書画像からの情報抽出,” ⼈⼯知能学会全国⼤会(第39回), 2025. 複数ページ推論の概略図 12
  9. 原理的に弱い部分がいくつかある - ⼩さい⽂字の認識が⽐較的苦⼿ > ⽂書画像は画像全体に対して抽出対象のスケールが⼩さい > 画像全体を考慮できる点が強みであるため、部分的に認識するのは悪⼿ > ⼊⼒解像度を上げれば解決されるが、GPUメモリには上限がある -

    補正の信頼性 > 単体で99.9%を達成しない限り別エンジンでの補正が必要 > Violaは中間情報を出⼒しないため、データ化項⽬の字⾯を⽐較して補正 - 「実は違う場所のテキストを⾒てました」があり得る > OCRベースエンジン間の補正は位置でマッチングするため信頼性が⾼い 今後の展望: Violaに対する課題感 15
  10. ビジネス⽂書特化基盤モデル × Visual Grounding - Violaに判断根拠となるテキスト位置を出⼒する機能を追加 > 根拠領域を再度OCRにかけて補正可能(細かい⽂字に強く、信頼性が⾼い) - 位置を表現する特殊トークン導⼊して実現可能

    > 例: ”Q: Company? A: Sansan株式会社<bbox><x_1><y_1><x_2><y_2></bbox>” 今後の展望: Cello ① ViolaとCelloの⽐較 名前の由来(諸説なし) Viola を拡張して接地(Grounding)させて演奏する Cello から 16
  11. 国家プロジェクト「GENIAC」※に採択 - 計算リソースの助成を受け、⼤規模事前学習・ファインチューニングを実施 - 事前学習の効率化に関する知⾒を論⽂・ブログ等で公開予定 - GENIAC終了後、Violaの枠組みを⽤いて迅速に社会実装 今後の展望: Cello ②

    プレスリリース(https://jp.corp-sansan.com/news/2025/0716_02.html) ※GENIAC(Generative AI Accelerator Challenge) 主に⽣成AIのコア技術である基盤モデルの開発に対する計算資源の提供 や、データやAIの利活⽤に向けた実証調査の⽀援等を実施するプロジェ クト。 計算資源の提供としては2024年2⽉から第1期が、2024年10⽉か ら第2期の開発⽀援が⾏われている。 URL:https://www.meti.go.jp/policy/mono_info_service/geniac/index.html 17
  12. 基盤モデル開発に⾄る背景 - OCR後処理の完全再現は困難 - 名刺以外のプロダクトでは独⾃OCRを作るフェーズではなかった ビジネス⽂書特化基盤モデル「Viola」 - VQAモデルによって後処理不要 & 多プロダクト展開可能な設計

    - 年間約1億円のビジネスインパクトを創出⾒込み Visual Grounding 機能を持つ基盤モデル「Cello」 - テキスト位置を介して既存エンジンと連携を可能にする - GENIACに採択によって開発が加速中 まとめ 19