VLMサービスを用いた請求書データ化検証 / SaaSxML_Session_1

by Sansan R&D

Embed

Start on current slide

Slide 1

Slide 1 text

Sansan株式会社部署名前 VLMサービスを⽤いた請求書データ化検証研究開発部 Automationグループ川波稜

Slide 2

Slide 2 text

川波稜 Sansan株式会社技術本部研究開発部 Automationグループ東京⼤学⼤学院学際情報学府先端表現情報学コース修⼠課程修了。新卒で⼤⼿通信会社に⼊社し、OCR・国内希少⽣物の分類といった画像認識に関する研究開発に従事。 2025年にSansan株式会社へ⼊社し、現在はBill Oneにおけるデータ化エンジンの研究開発を担当している。元⾼専⽣で「未踏IT⼈材発掘・育成事業」出⾝。

Slide 3

Slide 3 text

1. 請求書データ化業務について 2. 請求書データ化業務における課題 3. テーマ：VLMサービスを⽤いた請求書データ化検証 4. 結果・考察 5. まとめ ※ ここで紹介する実験の内容は、実際の当社サービスで⽤いている技術とは異なります。アジェンダ

Slide 4

Slide 4 text

経理DXから、全社の働き方を変える © Sansan, Inc.

Slide 5

Slide 5 text

● 請求書受領〜データ化を⾏いBill One上に納品するまでのプロセスが存在 ● OCRやMLを⽤いてデータ化を⾃動化する研究開発を⾏っている Bill Oneにおける請求書データ化業務について 99.9％の精度で請求書をデータ化紙やPDFなどあらゆる請求書を受け取れる申請・承認が簡単になり処理ステータスも管理できる

Slide 6

Slide 6 text

● 請求書受領〜データ化を⾏いBill One上に納品するまでのプロセスが存在 ● OCRやMLを⽤いてデータ化を⾃動化する研究開発を⾏っている Bill Oneにおける請求書データ化業務について 99.9％の精度で請求書をデータ化申請・承認が簡単になり処理ステータスも管理できる例えば⼝座番号を誤って納品すると... 振り込み誤りが発⽣し重⼤インシデント🤯 →よって求められる精度要件が極めて⾼い紙やPDFなどあらゆる請求書を受け取れる

Slide 7

Slide 7 text

複数のエンジン⾃動化とオペレーター⼊⼒の両輪でようやく99.9%を達成データ化納品時のデータを学習に使える循環（=HITLの環境）がある Bill One Entry（BOE）のデータ化の流れオペレータによる⼊⼒エンジンによる⾃動⼊⼒国税庁資料より引⽤発⾏元 (株)◯◯ 取引年⽉⽇ 2025/11/02 請求⾦額 88,000 円 … …

Slide 8

Slide 8 text

● 発⾏元 ● 取引年⽉⽇ ● 請求⾦額 ● 消費税請求書データ化項⽬について ● 銀⾏情報 ● ⽀払期⽇ ● 請求書番号国税庁資料より引⽤

Slide 9

Slide 9 text

● 発⾏元 ● 取引年⽉⽇ ● 請求⾦額 ● 消費税請求書データ化項⽬について ● 銀⾏情報 ● ⽀払期⽇ ● 請求書番号国税庁資料より引⽤こいつが特に難しい😡

Slide 10

Slide 10 text

問題： Bill Oneでデータ化する取引年⽉⽇はどれでしょうか？取引年⽉⽇が難しいの #なぁぜなぁぜ？

Slide 11

Slide 11 text

問題： Bill Oneでデータ化する取引年⽉⽇はどれでしょうか？ ※国税庁の定義としてはどれも取引年⽉⽇になり得るがBill Oneでは⼀意にデータ化するために「明細表の上・左」を指定取引年⽉⽇が難しいの #なぁぜなぁぜ？正解はこれ👉

Slide 12

Slide 12 text

1. ルールベースOCRエンジン 2. 物体検出エンジン 3. GNNエンジン 4. Transformerベースエンジン 5. 内製VLM Viola etc. 請求書データ化を⾏うエンジン

Slide 13

Slide 13 text

1. ルールベースOCRエンジン 2. 物体検出エンジン 3. GNNエンジン 4. Transformerベースエンジン 5. 内製VLM Viola etc. 請求書データ化を⾏うエンジン

Slide 14

Slide 14 text

【デモ】内製VLMモデル Viola

Slide 15

Slide 15 text

請求書データ化におけるVLMの強み ● ⽂字領域の検出〜OCRの間でデータ化対象が抜け落ちるケースに対応 ● ルールベースだとデータ化ルールが複雑で取れないケースに対応

Slide 16

Slide 16 text

請求書データ化におけるVLMの強み ● ⽂字領域の検出〜OCRの間でデータ化対象が抜け落ちるケースに対応 ● ルールベースだとデータ化ルールが複雑で取れないケースに対応 →Violaが⼀部項⽬を99.9%の精度でデータ化

Slide 17

Slide 17 text

請求書データ化におけるVLMの強み ● ⽂字領域の検出〜OCRの間でデータ化対象が抜け落ちるケースに対応 ● ルールベースだとデータ化ルールが複雑で取れないケースに対応 →Violaが⼀部項⽬を99.9%の精度でデータ化 Q. では最近のVLMサービスではどうなのか？🧐

Slide 18

Slide 18 text

Thema VLMサービスを⽤いた請求書データ化検証

Slide 19

Slide 19 text

⽬的 VLMサービスで出せる最⼤出⼒の精度を検証

Slide 20

Slide 20 text

使⽤するVLMサービス選定条件： ● 画像を⼊⼒として扱えるVLMモデルが使⽤できること ● 国内リージョンでデータをセキュアに扱えること Generative AI on Vertex AI（Gemini）

Slide 21

Slide 21 text

“取引年⽉⽇”に絞って以下の3つの条件(condition)で精度を評価 1. 基本的なプロンプトのみを使⽤ 2. 過去請求書の画像・データ化結果を使⽤ 3. ⼈間オペレータ向けデータ化ルールを使⽤やったこと

Slide 22

Slide 22 text

1. 基本的なプロンプトの例

Slide 23

Slide 23 text

● 試験的に同社における過去請求書の画像とデータ化結果を1shotで⼊⼒ 2. 過去請求書の例 6⽉分のデータ化結果（請求書画像+データ化結果テキスト） 7⽉分の請求書画像例⽰データ化

Slide 24

Slide 24 text

3. ⼈間オペレータ向けデータ化ルールの例 ● 請求書内の明細に記載されている⽇付を優先しデータ化 ● 明細内に「取引年⽉⽇」と判断できるものが複数ある場合は、より上・左に記載されている⽇付を優先 ● 明細内に「取引年⽉⽇」と判断できる⽇付が確認できない場合には、下記のルールをもとに「取引年⽉⽇」と判断された内容のうち、より上・左に記載されている⽇付をデータ化 ○ 〇：データ化される ■ 取引⽇, ご利⽤⽇, 利⽤⽉, 納⼊⽇, 締め⽇ ○ △：場合によってはデータ化される ■ 発⾏⽇, 請求⽇ ● … データ化ルールテキスト 7⽉分の請求書画像

Slide 25

Slide 25 text

● Sansan社を受領先とする6⽉分の請求書データ335件 ● 取引年⽉⽇における表記はYYYYMMDDに正規化する ● 正規化済みテキストが⼀致した場合のAccuracyを算出例：評価条件

Slide 26

Slide 26 text

● 過去請求書：モデルによる差が⼤きい ● データ化ルール：全体を⼤幅に底上げ Geminiのデータ化精度 Accuracy プロンプトのみ w/ 過去請求書 w/ データ化ルール w/ 過去請求書 ↓ データ化ルール w/ データ化ルール ↓ 過去請求書 gemini-2.5-pro 0.3735 0.7078 0.8876 0.8820 0.8792 gemini-2.5-flash 0.3258 0.5056 0.8595 0.6292 0.6292 gemini-2.0-flash 0.3426 0.1882 0.6207 0.4662 0.6235 gemini-2.0-flash-lite 0.3314 0.3146 0.5674 0.5112 0.4044 gemini-1.5-pro-002 0.3230 0.2050 0.6685 0.1207 0.3595 gemini-1.5-flash-002 0.3286 0.0842 0.7134 0.2808 0.2668

Slide 27

Slide 27 text

2.5 proの条件別⽐較 →proは過去データの例⽰やデータ化ルールを理解請求書別の⽐較正解 2024/11/02 w/過去請求書 2024/11/02 w/データ化ルール 2024/11/02 w/ 過去請求書→データ化ルール 2024/11/02 w/ データ化ルール →過去請求書 2024/11/02 プロンプトのみ 2024/11/30

Slide 28

Slide 28 text

w/過去請求書のモデル別⽐較 →過去データの例⽰は2.5 proでのみ有効請求書別の⽐較正解 2024/11/02 2.5 pro 2024/11/02 2.5 flash 2024/11/30 2.0 flash 2024/10/31 2.0 flash lite 2024/11/30 1.5 pro 2024/11/30 1.5 flash 2024/11/30 過去データのまま出⼒してしまっている

Slide 29

Slide 29 text

w/データ化ルールのモデル別⽐較 →多くのモデルでルールを理解請求書別の⽐較正解 2024/11/02 2.5 pro 2024/11/02 2.5 flash 2024/10/31 2.0 flash 2024/10/31 2.0 flash lite 2024/10/31 1.5 pro 2024/11/02 1.5 flash 2024/11/02

Slide 30

Slide 30 text

● 精度の最⼤値は2.5 proにデータ化ルールテキストを⽤いた88.8% ○ データ化ルールはテキストでありモデルによらず理解されやすいため精度に寄与しやすい ● ⼀⽅で過去請求書を⼊れるとモデルによる精度差が⼤きくなり1.5系では低下を招いた ○ 現状2.5 proのみしか画像とテキストの関係を理解できていない ○ モデル⼊⼒時にリサイズする解像度や画像とテキストの特徴差異が原因か結果・考察

Slide 31

Slide 31 text

まとめ ● 本検証では“取引年⽉⽇”においてVLMサービスとデータ化ルールテキストを⽤いることでAccuracy88.7%に⾄ることを確認した ● しかしBill Oneのデータ化精度要件であるPrecision99.9%を達成するには確信度などで閾値を設定して出⼒を吟味する必要がある