ローカルVLM OCRモデル + Gemini 3.0 Proで日本語性能を試す

ローカルVLM OCRモデル+ Gemini 3.0 Proで  日本語性能を試す    Gota (@gota_bara)   
2025/11/22  第1回ローカルLLMなんでも勉強会 

自己紹介  Gota (@gota_bara) 所属データアナリスト & Agentic AI エンジニアやってること
⼩売向けデータプロダクト / AIエージェント開発 / データ整備興味 AI × 体験 / ⾳声AI / Agent Evals / DSPy / 🏕(夏以外) cc-sdd ⭐1.8k Kiro-styleの仕様駆動開発ツール来週までにKiroに追加された「property based tests」もcc-sdd側にも追加予定 2

3 VLM OCRモデル  従来のOCR AI OCR VLM OCR 主な役割画像から⽂字を読み取る
⽂字認識の精度を向上（⼿書き ‧⾮定型対応）意味‧⽂脈‧意図を理解し柔軟に情報を抽出処理対象定型帳票中⼼定型＋⾮定型⾮定型‧複雑⽂書まで対応必要な設定位置指定が必要レイアウトごとの設定が必要項⽬名を⼊⼒するだけで推論抽出が可能処理限界単語単位での認識表現のバリエーションに弱い類義語‧⽂脈をふまえて柔軟に解釈引⽤: https://itso.co.jp/columns/category/ai/ai-llm-ocr/columns-1933/ 画像 → ⽂字列＋構造＋意味まで⼀気にやれるOCR

4 1. DeepSeek-OCR (2025/10) a. 専⽤OCRモデル b. VLM OCR特化モデル 2.
olmOCR2 7B (2025/10) a. 7Bクラスでローカル動作しやすい汎⽤OCRモデル b. VLM OCR特化モデル (ユニットテストによる報酬学習 (RLVR)) 3. Qwen3-VL 8B (2025/10) a. 画像＋テキストのマルチモーダルLLM。推論で「理解させつつ読む」系が得意なはず b. 確か30BがあるがolmOCR2に合わせて8Bに 4. Gemini 3 Pro (2025/11) a. Gemini 2.5の段階から⽇本語のマルチモーダル性能も⾼かったので3でも検証 5. Yomitoku 触ってみたかったOCRエンジン 6. PaddleOCR-VL これも触ってみたかった 7. dots.ocr 比較してみたモデル 

5 • 今回は全て画像としてOCRに読み込ませた • 評価観点は(A) (B) (C) で⾏った検証項目と評価観点  (A)
テキスト種別 (B) レイアウト (C) ⽇本語難所 (D) モデル性質 1. 請求書フォーム‧表表‧枠線英数字混在構造化(JSON) 2. 統合報告書印刷(横) 多段組み‧図表全半⾓混在レイアウト再現 3. 近代⽂学歴史‧旧書体 1カラム(縦) 縦書き‧ルビ⽣テキスト精度 4. レシートレシートシンプル半⾓カナロバストネス

6 ① 請求書 

7 ① 請求書 - DeepSeek OCR  良い感じ

8 ① 請求書 - olmOCR2 7B  良い感じ！

9 ① 請求書 - Qwen3 VL 8B  Qwenは⽇本語を中国語として読み取ることが多かった

10 ① 請求書 - Gemini 3.0 Pro  完璧

11 ② 統合報告書  • 複雑なレイアウト • 表‧グラフ混合 https://www.bandainamco.co.jp/ir/library/integratedreports.html

12 ② 統合報告書 - DeepSeek OCR  グラフの読み取り精度は低い

13 ② 統合報告書 - DeepSeek OCR  表は良い線いってる

14 ② 統合報告書 - olmOCR2 7B  ‧グラフを読み取れていない ‧表の読み取りはまあまあ

15 ② 統合報告書 - Qwen3 VL 8B  そもそも⽇本語での出⼒があまりうまくいかない

16 ② 統合報告書 - Gemini 3.0 Pro  解像度悪いにも関わらずほぼ正確に読めている。

17 ② 統合報告書 - Gemini 3.0 Pro  表は完璧

18 ③ 近代文学 (夏目漱石門)  • ⽇本語縦書き • 振り仮名

19 ③ 近代文学 - DeepSeek OCR  バグった

20 ③ 近代文学 - olmOCR2 7B  かなり善戦している

21 ③ 近代文学 - Qwen3 VL 8B  バグった

22 ③ 近代文学 - Gemini 3.0 Pro  善戦しているカナはどうしても解像度や旧字体の影響で難しそう

23 ④ レシート 

24 ④ レシート - DeepSeek OCR  レシートのアイテム名は抽出できているがそれ以外が怪しい

25 ④ レシート - olmOCR2 7B  完璧！

26 ④ レシート - Qwen3 VL 8B  Qwen 3 VLはOCR能⼒がかなり
低い

27 ④ レシート - Gemini 3.0 Pro  合ってる！

28 まとめ  基本Gemini 3.0で良いやんと思ってしまったが、olmOCR2 7Bはベースモデルには思った以上に悪くなかった！ VLM OCRは件数が多くなりがちなのでEvalsをちゃんとしたい！⽇本語OCR性能 DeepSeek-OCR
olmoOCR2 7B Qwen 3 VL 8B Gemini 3.0 Pro 1. 請求書 ◯ ◯ × ◎ 2. 統合報告書 △ △ × ◎ 3. 近代⽂学 × △ × △ 4. レシート △ ◎ × ◎

ありがとうございました！  質問やお問い合わせ等あればお気軽に！   X: @gota_bara 

ローカルVLM OCRモデル + Gemini 3.0 Proで日本語性能を試す

ローカルVLM OCRモデル + Gemini 3.0 Proで日本語性能を試す

Gota

More Decks by Gota

Other Decks in Technology

Featured

Transcript