Slide 1

Slide 1 text

Sansan株式会社 部署 名前 文書画像のデータ化における VLM 活用 Sansan技術本部 研究開発部 Automation グループ 石井 良 1

Slide 2

Slide 2 text

石井 良 Sansan株式会社 技術本部 研究開発部 Automation グループ 研究員 新卒で大手SI企業に入社し、本社R&D部門でAI-OCRアルゴリズ ムの開発、知識グラフを用いた名寄せアルゴリズムの開発を主導。 並行して顧客事業へのAI/ML導入支援・コンサルタント業務に従 事。 2022年1月にSansan株式会社に入社。 現在はR&D部門にてMLOpsを推進しつつ内製の生成AI "Viola" の 開発・展開に取り組む。 2

Slide 3

Slide 3 text

Sansan 社では内製の VLM※ “Viola” を開発・リリースしており、 現在も名刺・請求書のデータ化を支援しています 視覚質問応答タスクを利用したデータ化は End-to-end な手法であり、 場合によっては他の手法よりも高精度なデータ化を実現します “Viola” を展開し、事業貢献していくためには様々な課題があります 興味を持っていただいたらぜひお気軽にご連絡ください はじめに 3 ※VLM = Vision Language Model

Slide 4

Slide 4 text

Agenda - 内製の VLM※ “Viola” - データ化とは - データ化の課題 - 解決策としての視覚質問応答 - 視覚質問応答のデメリット・懸念点 - Viola のアーキテクチャ - Viola の傾向 - ビジネス適用の現在地 - 課題 - おわりに 4 ※VLM = Vision Language Model

Slide 5

Slide 5 text

内製の VLM “Viola” Viola は様々な文書を学習した、内製の VLM(Vision Language Model)です。 既に複数リリースされており、名刺・請求書のデータ化を支援しています。 Viola 名刺特化 Viola 請求書特化 Viola 契約書特化 Viola 文書A 文書C 文書B 文字認識に 特化した事前学習 データ化ルールを Fine-Tuning 素早く API として 組み込み シ ス テ ム 5 ※グレー領域(契約書)は 検証中です

Slide 6

Slide 6 text

データ化とは(1/4) 文書画像から必要な情報を抽出する技術をデータ化と呼んでいます。 要素技術的には、ざっくり 3 つの方式で実現できます。 視覚質問応答 情報抽出 文字検出 & 文字認識 情報抽出 文字認識 文字検出 1 2 3 6

Slide 7

Slide 7 text

データ化とは(2/4) ※画像・データはダミーです まず文字列が記載された領域を検出し、検出した領域の文字を認識します。 次に検出器と認識器の出力を組み合わせて情報抽出し、構造化します。 それぞれのプロセスを作り込めるため、高い精度を狙うことができます。 内製する場合はこの構成を取ることが多いと思われます。 情報抽出 文字認識 文字検出 1 7

Slide 8

Slide 8 text

データ化とは(3/4) 2 文字検出と文字認識を同時に解く Text Spotting の研究も盛んです。 (文字検出と文字認識の結果を統合しているかもしれないですが) API で Text Spotting 相当の出力を提供するサービスがあります。 Text Spotting API + ルールの情報抽出で必要最小限の機能を作り易いです。 情報抽出 文字検出 & 文字認識 Xiang Zhang, Yongwen Su, Subarna Tripathi, and Zhuowen Tu. Text spotting transformers. In CVPR, 2022 8

Slide 9

Slide 9 text

画像と自然言語の質問を受け取り、自然言語で回答するタスクです。 VLM の研究活発化に伴い文書からの情報抽出の精度が向上してきています。 先述の 2 手法と異なり、単一のタスクとしてデータ化が可能です。 GPT-4o や Gemini で試された方も多いかもしれません。 視覚質問応答 データ化とは(4/4) ※画像・データはダミーです 3 “氏名は?” 視覚 質問応答 モデル 水上弘太郎 9

Slide 10

Slide 10 text

1 あるいは 2 の方式は大抵のケースで高精度にデータ化ができます。 一方、より高い精度を追求する場合には、いくつかの課題があります。 データ化の課題 ※画像・データはダミーです 処理前半のミスが 尾を引く 文字検出に失敗すると 文字認識も失敗します 処理が独立に 最適化されている 情報抽出に適した単位で 文字列が検出されるとは 限りません 仕様に合わせた 後処理が難しい 仕様に合わせるための 後処理がほぼ必須です 10

Slide 11

Slide 11 text

視覚質問応答によるデータ化は、課題を解決できる可能性がありそうです。 解決策としての視覚質問応答 ※画像・データはダミーです 処理前半のミスが 尾を引く 処理が独立に 最適化されている 仕様に合わせた 後処理が難しい 矩形を作らないため 検出ミスは起きない データ化したい情報を 直接学習可能 単一タスクで解くため データ化に最適化可能 “TELは?” 01-2345-6789 “タイトルは?” “請求書” “TELは?” 987-654-3210 11

Slide 12

Slide 12 text

ただし、データ化という観点で見た時にはデメリットもあります。 ● 細かい文字列に対する認識精度が低くなることが予想される ○ 文字領域を特定して文字を読む構造と比べると劣る可能性が高い ● ハルシネーション(画像中に存在しない文字の出力)は避けられない ○ 生成系の手法を扱う場合、構造上回避が難しい 解像度を大きくすると文字認識の性能が上がる・ハルシネーションが低減さ れると報告する研究がいくつかありました。 高解像度な文書画像と文字列を学習したモデルを内製すれば価値がある と考え、検証を開始しました。 視覚質問応答のデメリット・懸念 12

Slide 13

Slide 13 text

ベースのアーキテクチャとして GIT[Wang et al., 2022] を採用しました。 まず画像中の文字を予測する Captioning で事前学習モデルを作ります。 その後、視覚質問応答タスクで Fine-Tuning する構成です。 Viola のアーキテクチャ Wang, J., Yang, Z., Hu, X., Li, L., Lin, K., Gan, Z., Liu, Z., Liu, C., and Wang, L. Git: A generative imageto -text transformer for vision and language. ArXiv, abs/2205.14100, 2022c 13

Slide 14

Slide 14 text

名刺・請求書をそれぞれ Fine-Tuning したモデルの傾向を評価しました。 うまくいった例 文字検出でミスが起きやすいケースは 改善される傾向がありました(請求書モデル) 空間的に離れている情報をスムーズに 出力できる傾向がありました(名刺) Viola の傾向 ※画像・データはダミーです 14 “タイトルは?” “請求書” うまくいかなかった例 比較的細かい文字の認識を 誤る傾向がありました(名刺モデル) 一般的な語彙ではないと思われる 文字の認識を誤る傾向がありました(名刺モデル) “Email は?” “[email protected]” “住所は?” “123 Anywhere St., Ariy City” “部署 は?” 東京本店 研究開発部

Slide 15

Slide 15 text

名刺や請求書のデータ化に関連するタスクで精度を検証しました。 結果、いくつかのタスクで既存エンジンの精度を上回りました。 投資対効果を得ることが出来ると確認できたためリリースしており、 名刺・請求書のデータ化フロー内で現在 3 つのモデルが稼働しています。 このアーキテクチャの汎用性・事業効果が認知されたため 現在 4 つのデータ化に関連するタスクで新たに検証を開始しています。 これからも活用を拡大していく予定です。 ビジネス適用の現在地 15

Slide 16

Slide 16 text

Viola をより幅広に展開して事業貢献するためには多くの課題があります。 課題 データ量が充分でない可能性が高い データを増やすほど精度が上がる傾向を確認 しているため、活用量を増やしたいです データ 適用までのリードタイムがやや長い 汎用性の高いモデルを作ることで検証を 高速化し、リードタイムを短くしたいです リードタイム 細かい文字列の認識精度はやや低い 構造上避け辛いため、アーキテクチャの変更 も含めて精度向上を目指す必要があります 手続き的作業がまだ多い 自動化・プロセス再設計により効率化の余地 が多く残っています トイル 精度 16

Slide 17

Slide 17 text

Sansan 社では内製の VLM “Viola” を開発・リリースしており、 現在も名刺・請求書のデータ化を支援しています 視覚質問応答タスクを利用したデータ化は End-to-end な手法であり、 場合によっては他の手法よりも高精度なデータ化を実現します “Viola” を展開し、事業貢献していくためには様々な課題があります 興味を持っていただいたらぜひお気軽にご連絡ください おわりに 17

Slide 18

Slide 18 text

Sansan 技術本部 募集ポジション紹介 https://media.sansan-engineering.com/ 18

Slide 19

Slide 19 text

19