Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ローカルVLM OCRモデル + Gemini 3.0 Proで日本語性能を試す

Avatar for Gota Gota
November 22, 2025

ローカルVLM OCRモデル + Gemini 3.0 Proで日本語性能を試す

最新のVLM(Vision Language Model)ベースのOCRモデルを中心に、日本語ドキュメントの読み取り性能を検証・比較しました。

【検証内容】 以下の4つのモデルを用いて、請求書・統合報告書・近代文学・レシートの4種類のドキュメントにおける読み取り精度を評価しています。

【対象モデル】
DeepSeek-OCR
olmOCR2 7B (ローカルVLM)
Qwen3-VL 8B
Gemini 3.0 Pro (比較用ベースライン/趣味)

【検証結果】
ベースラインとしたGemini 3.0 Proが高い精度を示しましたが、ローカル動作する7Bクラスのモデルの中では「olmOCR2 7B」が特に健闘しており、レシートや一般的な文書において実用的な性能を示しました。

Avatar for Gota

Gota

November 22, 2025
Tweet

More Decks by Gota

Other Decks in Technology

Transcript

  1. 自己紹介
 Gota (@gota_bara) 所属 データアナリスト & Agentic AI エンジニア やってること

    ⼩売向けデータプロダクト / AIエージェント開発 / データ整備 興味 AI × 体験 / ⾳声AI / Agent Evals / DSPy / 🏕(夏以外) cc-sdd ⭐1.8k Kiro-styleの仕様駆動開発ツール 来週までにKiroに追加された「property based tests」もcc-sdd側にも追加予定 2
  2. 3 VLM OCRモデル
 従来のOCR AI OCR VLM OCR 主な役割 画像から⽂字を読み取る

    ⽂字認識の精度を向上(⼿書き ‧⾮定型対応) 意味‧⽂脈‧意図を理解し柔軟 に情報を抽出 処理対象 定型帳票中⼼ 定型+⾮定型 ⾮定型‧複雑⽂書まで対応 必要な設定 位置指定が必要 レイアウトごとの設定が必要 項⽬名を⼊⼒するだけで推論抽 出が可能 処理限界 単語単位での認識 表現のバリエーションに弱い 類義語‧⽂脈をふまえて柔軟に 解釈 引⽤: https://itso.co.jp/columns/category/ai/ai-llm-ocr/columns-1933/ 画像 → ⽂字列+構造+意味 まで⼀気にやれるOCR
  3. 4 1. DeepSeek-OCR (2025/10) a. 専⽤OCRモデル b. VLM OCR特化モデル 2.

    olmOCR2 7B (2025/10) a. 7Bクラスでローカル動作しやすい汎⽤OCRモデル b. VLM OCR特化モデル (ユニットテストによる報酬学習 (RLVR)) 3. Qwen3-VL 8B (2025/10) a. 画像+テキストのマルチモーダルLLM。推論で「理解させつつ読む」系が得意なはず b. 確か30BがあるがolmOCR2に合わせて8Bに 4. Gemini 3 Pro (2025/11) a. Gemini 2.5の段階から⽇本語のマルチモーダル性能も⾼かったので3でも検証 5. Yomitoku 触ってみたかったOCRエンジン 6. PaddleOCR-VL これも触ってみたかった 7. dots.ocr 比較してみたモデル

  4. 5 • 今回は全て画像としてOCRに読み込ませた • 評価観点は(A) (B) (C) で⾏った 検証項目と評価観点
 (A)

    テキスト種別 (B) レイアウト (C) ⽇本語難所 (D) モデル性質 1. 請求書 フォーム‧表 表‧枠線 英数字混在 構造化(JSON) 2. 統合報告書 印刷(横) 多段組み‧図表 全半⾓混在 レイアウト再現 3. 近代⽂学 歴史‧旧書体 1カラム(縦) 縦書き‧ルビ ⽣テキスト精度 4. レシート レシート シンプル 半⾓カナ ロバストネス