Slide 1

Slide 1 text

Sansan株式会社 技術本部 研究開発部 シニアリサーチャー 内⽥奏 ビジネス⽂書に特化した 基盤モデル開発 Sansan&CADDiが語るSaaS R&DとML最前線

Slide 2

Slide 2 text

写真が⼊ります 内⽥ 奏 Sansan株式会社 技術本部 研究開発部 シニアリサーチャー 東京電機⼤学⼤学院⼯学研究科修⼠課程修了。 深層学習を⽤いた画像⽣成・変換に関する研究に取り組む。 2020年Sansan株式会社に新卒⼊社。 名刺画像の品質およびOCR精度の改善に関する研究開発に従事。 1

Slide 3

Slide 3 text

1. 基盤モデル開発に⾄る背景 i. Sansanにおける⽂書データ化 ii. 内製OCRエンジン開発を通して⾒えた課題 2. ビジネス⽂書に特化した基盤モデル「Viola」 i. コンセプト ii. モデル構造・推論の⼯夫 iii. 価値提供の仕組み 3. 今後の展望 i. 視覚接地した⽂書特化基盤モデル「Cello」の開発 ⽬次 2

Slide 4

Slide 4 text

基盤モデル開発に⾄る背景

Slide 5

Slide 5 text

正確なデータ化※をベースとした業務効率化プロダクトを提供 - ビジネスデータに必要な精度は⾮常に⾼い > 例: メールアドレスは1⽂字間違えただけで送信できない。 メールアドレスは平均20⽂字程度であり、⽂字単位精度99%でも5件に1件は利⽤不可。 - ⼈と機械を組み合わせたデータ化によって精度を保証 背景: Sansanにおける⽂書データ化 ① ※⽂書画像から必要な項⽬情報をKey-Value形式で抽出・構造化すること 4

Slide 6

Slide 6 text

背景: Sansanにおける⽂書データ化 ② ⼈と機械を組み合わせたデータ化システム - 次の観点を数値化しながら運⽤・改善 > Quality : データ化精度 > Cost : データ化コスト > Delivery : 納品時間 > Security : セキュリティ - R&DはML技術による⾃動化でQCDS改善に貢献 > 例: 名刺特化OCRエンジン「NineOCR」の開発 名刺データ化システム「GEES」 5

Slide 7

Slide 7 text

99.9%の壁 - NineOCRをベースにEightのデータ化を完全⾃動化(2023年) > Sansanの精度要件は99.9%、Eightの要件よりもう1段⾼い - Sansanの完全⾃動化までに残された課題: 後処理 > OCR(検出+認識)結果をKey-Value形式に変換する部分 > サービス仕様に沿って後処理を完全再現するのはほぼ不可能 - GEESの歴史は⻑く、所管は別部署であり、ソフトウェアスタックも異なる - プロダクト⽅針・顧客要望によって常に変化する 背景: OCRエンジン開発を通して⾒えた課題 ① 6

Slide 8

Slide 8 text

多プロダクト展開の難しさ - OCRを「直接」学習できるデータはあまり残っていない > OCRの学習には、テキスト矩形と⽣⽂字列が必要 > サービスに必要なのは構造化&正規化されたデータ化結果(≠学習データ) - 名刺でOCRモデルを作れたのはラッキー > 開発当時の状況 - ⼈⼒でデータ化していた時代の矩形が残っていた - 会社が成⻑して⻑期プロジェクトが実⾏可能になった etc. > 他のプロダクトでは状況が異なる - 汎⽤OCR結果からNLP的な⼿法で抽出するのが主流 & 成⻑途上 背景: OCRエンジン開発を通して⾒えた課題 ② 7

Slide 9

Slide 9 text

ビジネス⽂書特化基盤モデル「Viola」

Slide 10

Slide 10 text

視覚質問応答(VQA)⽅式の情報抽出によりE2Eなデータ化を実現 - 事前学習: ⽂書画像と汎⽤OCR結果のペアを学習して⽂字認識能⼒を獲得 > 多プロダクト展開可能を念頭において設計 - ファインチューニング: 納品データを学習してデータ化ルールを習得 > 納品データを直接学習するため後処理不要 Viola: コンセプト Violaによる情報抽出イメージ Violaの学習戦略 名前の由来(諸説あり) - Sansanの⻘と⾚を混ぜると紫(イタリア語で Viola) - Violin が奏でる主旋律(プロダクト)を下から⽀える Viola - Viola-Jones法のように long-standing なエンジンになってほしい etc. 9

Slide 11

Slide 11 text

GIT [1] ベースのアーキテクチャを採⽤ - 採⽤した理由 > 検証段階で⼗分に性能が出た > Hugging Face Transformers [2] にも実装があり参考にできた - シンプルな構成であるため、推論バックエンドの変更に頑健 > 例1: PyTorchに同梱されているFlash Attention 2 [3] への変更が容易 > 例2: ONNX Runtime [4] やTensorRT [5] への変換が容易 Viola: モデル構造 [1] J. Wang et al., “GIT: A Generative Image-to-text Transformer for Vision and Language,” Transactions on Machine Learning Research, 2022. [2] T. Wolf et al., “HuggingFace’s transformers: State-of-the-art natural language processing,” arXiv preprint arXiv:1910.03771, 2019. [3] T. Dao, “FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning,” in The Twelfth International Conference on Learning Representations, 2023. [4] https://onnxruntime.ai/ [5] https://developer.nvidia.com/tensorrt 10

Slide 12

Slide 12 text

同時多項⽬推論 - 単項⽬推論: 項⽬間の関係性を明⽰的にモデリング不可能 - 多項⽬推論: ⽂脈として⼊⼒することで明⽰的にモデリング可能 - 性能向上を確認し、NLP2025にて発表 [6] Viola: 推論の⼯夫 ① 単項⽬推論と多項⽬推論の⽐較 [6] Mengsay Loem, 保坂⼤樹, “視覚的質問応答による⽂書情報抽出における同時多項⽬推論,” ⾔語処理学会 第31回年次⼤会, 2025. 11

Slide 13

Slide 13 text

複数ページ推論 - 請求書や契約書はデータ化項⽬が複数ページにまたがることが多い - Temporal Embeddingを導⼊して複数ページ推論可能とした - Violaの利⽤範囲を拡⼤し、性能に関する分析はJSAI2025にて発表済 [7] Viola: 推論の⼯夫 ② [7] ⼭内敏嗣, “GIT を活⽤した複数ページ契約書画像からの情報抽出,” ⼈⼯知能学会全国⼤会(第39回), 2025. 複数ページ推論の概略図 12

Slide 14

Slide 14 text

主要プロダクト向けに10件以上のモデルが稼働中 - API実装・CDパイプラインをViolaレポジトリに集約してリリースを容易化 > APIはVQA部分のみ責任を持ち、クライアントでI/Fを変換(Adapterパターン) > 社内基盤・マネージドサービスへのCDパイプラインをGitHub Actionsに集約 - データ収集から最短2週間で本番環境へのリリースが可能 Viola: 価値提供 Viola適⽤の進展 来期年間約1億円のコスト削減⾒込み (2025年5⽉期通期決算資料より) 13

Slide 15

Slide 15 text

今後の展望

Slide 16

Slide 16 text

原理的に弱い部分がいくつかある - ⼩さい⽂字の認識が⽐較的苦⼿ > ⽂書画像は画像全体に対して抽出対象のスケールが⼩さい > 画像全体を考慮できる点が強みであるため、部分的に認識するのは悪⼿ > ⼊⼒解像度を上げれば解決されるが、GPUメモリには上限がある - 補正の信頼性 > 単体で99.9%を達成しない限り別エンジンでの補正が必要 > Violaは中間情報を出⼒しないため、データ化項⽬の字⾯を⽐較して補正 - 「実は違う場所のテキストを⾒てました」があり得る > OCRベースエンジン間の補正は位置でマッチングするため信頼性が⾼い 今後の展望: Violaに対する課題感 15

Slide 17

Slide 17 text

ビジネス⽂書特化基盤モデル × Visual Grounding - Violaに判断根拠となるテキスト位置を出⼒する機能を追加 > 根拠領域を再度OCRにかけて補正可能(細かい⽂字に強く、信頼性が⾼い) - 位置を表現する特殊トークン導⼊して実現可能 > 例: ”Q: Company? A: Sansan株式会社” 今後の展望: Cello ① ViolaとCelloの⽐較 名前の由来(諸説なし) Viola を拡張して接地(Grounding)させて演奏する Cello から 16

Slide 18

Slide 18 text

国家プロジェクト「GENIAC」※に採択 - 計算リソースの助成を受け、⼤規模事前学習・ファインチューニングを実施 - 事前学習の効率化に関する知⾒を論⽂・ブログ等で公開予定 - GENIAC終了後、Violaの枠組みを⽤いて迅速に社会実装 今後の展望: Cello ② プレスリリース(https://jp.corp-sansan.com/news/2025/0716_02.html) ※GENIAC(Generative AI Accelerator Challenge) 主に⽣成AIのコア技術である基盤モデルの開発に対する計算資源の提供 や、データやAIの利活⽤に向けた実証調査の⽀援等を実施するプロジェ クト。 計算資源の提供としては2024年2⽉から第1期が、2024年10⽉か ら第2期の開発⽀援が⾏われている。 URL:https://www.meti.go.jp/policy/mono_info_service/geniac/index.html 17

Slide 19

Slide 19 text

まとめ

Slide 20

Slide 20 text

基盤モデル開発に⾄る背景 - OCR後処理の完全再現は困難 - 名刺以外のプロダクトでは独⾃OCRを作るフェーズではなかった ビジネス⽂書特化基盤モデル「Viola」 - VQAモデルによって後処理不要 & 多プロダクト展開可能な設計 - 年間約1億円のビジネスインパクトを創出⾒込み Visual Grounding 機能を持つ基盤モデル「Cello」 - テキスト位置を介して既存エンジンと連携を可能にする - GENIACに採択によって開発が加速中 まとめ 19

Slide 21

Slide 21 text

No content