Upgrade to Pro — share decks privately, control downloads, hide ads and more …

VLMサービスを用いた請求書データ化検証 / SaaSxML_Session_1

VLMサービスを用いた請求書データ化検証 / SaaSxML_Session_1

■ イベント
【学生限定/オフライン開催】Sansan & CADDiが語るSaaS R&DとML最前線
https://sansan.connpass.com/event/361003/

■ 発表者
技術本部 研究開発部 Automationグループ
川波 稜

■ 研究開発部 採用情報
https://media.sansan-engineering.com/randd

■ Sansan Tech Blog
https://buildersbox.corp-sansan.com/

Avatar for Sansan R&D

Sansan R&D

July 29, 2025
Tweet

More Decks by Sansan R&D

Other Decks in Technology

Transcript

  1. 1. 請求書データ化業務について 2. 請求書データ化業務における課題 3. テーマ:VLMサービスを⽤いた請求書データ化検証 4. 結果・考察 5. まとめ

    ※ ここで紹介する実験の内容は、実際の当社サービスで⽤いている技術とは異なります。 アジェンダ
  2. • 請求書受領〜データ化を⾏いBill One上に納品するまでのプロセスが存在 • OCRやMLを⽤いてデータ化を⾃動化する研究開発を⾏っている Bill Oneにおける請求書データ化業務について 99.9%の精度 で 請求書をデータ化

    申請・承認が簡単になり 処理ステータスも管理できる 例えば⼝座番号を誤って納品すると... 振り込み誤りが発⽣し重⼤インシデント🤯 →よって求められる精度要件が極めて⾼い 紙やPDFなど あらゆる請求書を受け取れる
  3. • 発⾏元 • 取引年⽉⽇ • 請求⾦額 • 消費税 請求書データ化項⽬について •

    銀⾏情報 • ⽀払期⽇ • 請求書番号 国税庁資料より引⽤
  4. • 発⾏元 • 取引年⽉⽇ • 請求⾦額 • 消費税 請求書データ化項⽬について •

    銀⾏情報 • ⽀払期⽇ • 請求書番号 国税庁資料より引⽤ こいつが特に難しい😡
  5. • 過去請求書:モデルによる差が⼤きい • データ化ルール:全体を⼤幅に底上げ Geminiのデータ化精度 Accuracy プロンプトのみ w/ 過去請求書 w/

    データ化ルール w/ 過去請求書 ↓ データ化ルール w/ データ化ルール ↓ 過去請求書 gemini-2.5-pro 0.3735 0.7078 0.8876 0.8820 0.8792 gemini-2.5-flash 0.3258 0.5056 0.8595 0.6292 0.6292 gemini-2.0-flash 0.3426 0.1882 0.6207 0.4662 0.6235 gemini-2.0-flash-lite 0.3314 0.3146 0.5674 0.5112 0.4044 gemini-1.5-pro-002 0.3230 0.2050 0.6685 0.1207 0.3595 gemini-1.5-flash-002 0.3286 0.0842 0.7134 0.2808 0.2668
  6. 2.5 proの条件別⽐較 →proは過去データの例⽰やデータ化ルールを理解 請求書別の⽐較 正解 2024/11/02 w/過去請求書 2024/11/02 w/データ化ルール 2024/11/02

    w/ 過去請求書→デ ータ化ルール 2024/11/02 w/ データ化ルール →過去請求書 2024/11/02 プロンプトのみ 2024/11/30
  7. w/過去請求書のモデル別⽐較 →過去データの例⽰は2.5 proでのみ有効 請求書別の⽐較 正解 2024/11/02 2.5 pro 2024/11/02 2.5

    flash 2024/11/30 2.0 flash 2024/10/31 2.0 flash lite 2024/11/30 1.5 pro 2024/11/30 1.5 flash 2024/11/30 過去データのまま 出⼒してしまっている