論文紹介 DeepSeek-OCR ~画像によるコンテキスト圧縮は可能か？~

AI Community 2025.10.31 宮澤一之 GOドライブ株式会社 DeepSeek-OCR ~画像によるコンテキスト圧縮は可能か？~ 論文紹介 ※特に断りがない場合、資料内の図は紹介する論文からの引用となります

2 • 中国のDeepSeekから10/20に論文と共にリリースされたOCRモデル • OCRと謳っているが、LLMの入力をテキストから画像に変えることで大幅なコンテキスト圧縮が可能であることを示すのが本当の狙い DeepSeek-OCR [paper] [code] •
DeepSeek-OCRは優れたOCRモデルだが、それ以上に重要なのは「LLMへの入力をテキストではなくピクセルにする」という発想 • テキストトークンは非効率・不自然であり、入力としては画像の方が望ましい可能性がある • テキストを画像としてレンダリングして入力すれば： ◦ 情報が圧縮できるためコンテキストウィンドウが短くなり効率が上がる ◦ 単なるテキストに加えてその装飾や、任意の画像などを統一的に扱える ◦ 双方向アテンションを自然に使える（非オートレグレッシブ） • トークナイザーは非エンドツーエンドで、Unicodeやバイト符号化などの「歴史的負債」を引きずるため廃止すべき • OCRは「視覚→テキスト」変換の一形態にすぎず、将来的には「テキスト→テキスト」タスクも「視覚→テキスト」として統一的に扱えるかもしれない Andrej Karpathy氏の10/21のXポスト要約 https://karpathy.ai/assets/me_new.jpg

3 Contexts Optical Compression We present DeepSeek-OCR as an initial
investigation into the feasibility of compressing long contexts via optical 2D mapping. DeepSeek-OCR consists of … LLM We present DeepSeek-OCR as an initial investigation into the feasibility of compressing long contexts via optical 2D mapping. DeepSeek-OCR consists of … LLM Vision Encoder テキスト画像テキストトークン視覚トークン • テキストをそのままトークン化してLLMに入力するのではなく、まず画像としてレンダリングし、視覚エンコーダを介してLLMに入力する • テキストトークンに比べ視覚トークンの方がリッチな情報表現が可能であり、結果としてLLMに入力するトークンを大幅に圧縮できる • 既存のVLMの枠組みを使えば追加のオーバーヘッドなしで導入可能 • 本論文ではこの概念を実証するためのテストベッドとしてOCRを採用

4 既存のVLMにおける視覚エンコーダ

5 デュアルタワー型 • 高解像度画像と低解像度画像をそれぞれ異なるエンコーダで処理 • パラメータ数やアクティベーションメモリ*量を抑えられるが、2系統の処理が必要となるためデプロイが複雑になったり並列化が困難になったりする * モデルの推論や学習時に各層の中間結果を保持するのに必要なメモリ量

6 タイル型 • 入力画像を小さなタイルに分割して並列処理 • 高解像度な画像でもアクティベーションメモリ量を抑えられるが、タイル数が多くなりトークン数が増える

7 適応型 • NaViT [1] を用いることで、リサイズやタイル分割をせずに入力画像をそのまま処理 • 多様な解像度の画像を扱えるが、高解像度画像だとアクティベーションメモリの肥大化や極めて長いトークン処理の必要性が生じる

8 1. 高解像度画像を処理できる 2. アクティベーションメモリ量が小さい 3. 視覚トークン数が少ない 4. さまざまな解像度の画像を入力できる 5.
パラメータ数が大きすぎないコンテキスト圧縮のために視覚エンコーダが備えるべき要件

9 提案アーキテクチャ

10 エンコーダ (DeepEncoder) • SAM [2] のバックボーン (ViTDet [3]) で特徴を抽出し、2層のCNN
でダウンサンプルして視覚トークンを得る • 視覚トークンをCLIPエンコーダに入力し、CLIPによる画像とテキストのアラインメントの恩恵を受ける

• SAM [2] のバックボーン (ViTDet [3]) で特徴を抽出し、2層のCNN でダウンサンプルして視覚トークンを得る • 視覚トークンをCLIPエンコーダに入力し、CLIPによる画像とテキス
トのアラインメントの恩恵を受ける 11 エンコーダ (DeepEncoder) • 高解像度画像における計算量を抑えるため、アテンションの範囲をローカルに限定するウィンドウアテンションを用いたViTDetを採用 • 1024x1024入力でパッチサイズ16 の場合、4096トークンを出力

トのアラインメントの恩恵を受ける 12 エンコーダ (DeepEncoder) • Conv 2層でトークンを1/16に圧縮 • SAM出力が4096トークンの場合、256 トークンに

トのアラインメントの恩恵を受ける 13 エンコーダ (DeepEncoder) • CLIPへの入力は画像ではないため、最初のパッチ埋め込み層を削除 • SAM (ViTDet) ではローカルに限定されていたアテンションをグローバルに適用

トのアラインメントの恩恵を受ける 14 エンコーダ (DeepEncoder) • （論文に記載はないが）SAM 出力トークンとCLIP出力トークンを特徴量の次元方向に結合した上でプロジェクタ（MLPなど）に通している • ビジョンエンコーダとデコーダ（LLM）との橋渡しをしていると思われる

15 複数解像度のサポート • 解像度に応じて入力方法とトークン数が異なる6種類のモードを用意 • TinyからLargeモードまでは固定サイズにリサイズ、パディング • Gundam (!) モードではオリジナル解像度でタイルに分割したものと
全体を固定サイズに変換したものを両方用いる

16 デコーダ (DeepSeek-3B-MoE) • 圧縮された視覚トークンから、テキストを生成する • MoEアーキテクチャのLLMで、推論時には64個のエキスパートの中から6個、さらに共有エキスパートの2個がアクティベートされる • LLM全体では30億パラメータだが、推論に必要なのは5.7億

17 学習データセット OCR 70% Vision 20% Text 10%

18 学習データセット OCR 70% Vision 20% Text 10% • ドキュメントや自然画像中の文字を認識する古典的OCR
(OCR-1.0) に加え、グラフや化学式、幾何学的な図形の認識も含んだOCR-2.0向けのデータも利用 • OCR-1.0: PDF 3000万枚、Word 300万枚、自然画像 200万枚 • OCR-2.0: グラフ1000万枚、化学式500万枚、幾何図形100万枚

(OCR-1.0) に加え、グラフや化学式、幾何学的な図形の認識も含んだOCR-2.0向けのデータも利用 • OCR-1.0: PDF 3000万枚、Word 300万枚、自然画像 200万枚 • OCR-2.0: グラフ1000万枚、化学式500万枚、幾何図形100万枚 OCR-1.0

(OCR-1.0) に加え、グラフや化学式、幾何学的な図形の認識も含んだOCR-2.0向けのデータも利用 • OCR-1.0: PDF 3000万枚、Word 300万枚、自然画像 200万枚 • OCR-2.0: グラフ1000万枚、化学式500万枚、幾何図形100万枚 OCR-2.0

21 学習データセット OCR 70% Vision 20% Text 10% • DeepEncoderに用いている事前学習済みのCLIPから得られる一般的
な視覚に関する知識を保持するため、キャプション生成や物体検出、グラウンディングといった視覚タスク向けのデータも利用 • モデルの言語能力を確保するためテキストのみのデータも利用

22 性能評価〜圧縮率とOCR性能の関係〜 Tiny 512x512 Small 640x640 • 圧縮率（= 視覚トークン÷テキストトークン）
1/10程度までPrecision約97%を維持 • それ以上の圧縮率で性能が低下する要因は、長い文章だとレイアウトが複雑になることや、レンダリングの解像度が不足することなど

23 性能評価〜他OCR手法との比較〜少トークン・高性能従来手法よりも少ない視覚トークン数で高いOCR性能を実現（e.g., 約7000トークンのMinerU2.0よりも高い性能を約800トークンで実現）

24 人間の忘却メカニズムの模倣

25 • これからはLLMもCVエンジニアの時代 • （学術論文ではないため？）Ablation studyがなく提案アーキテクチャのどこが本質的に重要なのかがわからなかった • OCRは文字情報の保存度を測るタスクとしては良いと思うが、意味情報の保存度は測れないので、OCR精度が高いからといってコンテキス
ト圧縮ができていると言っていいのだろうか（逆にOCR精度が低くてもコンテキスト圧縮ができている可能性もある？） • いずれにせよ1つの方向性としては興味深く、深掘りできそう（されてそう [4]）まとめ

26 [1] M. Dehghani et al., “Patch n’ Pack: NaViT,
a Vision Transformer for any Aspect Ratio and Resolution,” NurIPS, 2023. [2] A. Kirillov et al., “Segment Anything,” arXiv, 2023. [3] Y. Li et al., “Exploring Plain Vision Transformer Backbones for Object Detection,” arXiv, 2022. [4] P. Rust et al., “Language Modelling with Pixels,” ICLR, 2023. 参考文献

論文紹介 DeepSeek-OCR ~画像によるコンテキスト圧縮は可能か？~

論文紹介 DeepSeek-OCR ~画像によるコンテキスト圧縮は可能か？~

Kazuyuki Miyazawa

More Decks by Kazuyuki Miyazawa

Featured

Transcript

AI Community 2025.10.31 宮澤一之 GOドライブ株式会社 DeepSeek-OCR ~画像によるコンテキスト圧縮は可能か？~ 論文紹介 ※特に断りがない場合、資料内の図は紹介する論文からの引用となります

2 • 中国のDeepSeekから10/20に論文と共にリリースされたOCRモデル • OCRと謳っているが、LLMの入力をテキストから画像に変えることで大幅なコンテキスト圧縮が可能であることを示すのが本当の狙い DeepSeek-OCR [paper] [code] •

3 Contexts Optical Compression We present DeepSeek-OCR as an initial

4 既存のVLMにおける視覚エンコーダ

6 タイル型 • 入力画像を小さなタイルに分割して並列処理 • 高解像度な画像でもアクティベーションメモリ量を抑えられるが、タイル数が多くなりトークン数が増える

8 1. 高解像度画像を処理できる 2. アクティベーションメモリ量が小さい 3. 視覚トークン数が少ない 4. さまざまな解像度の画像を入力できる 5.

9 提案アーキテクチャ

10 エンコーダ (DeepEncoder) • SAM [2] のバックボーン (ViTDet [3]) で特徴を抽出し、2層のCNN

• SAM [2] のバックボーン (ViTDet [3]) で特徴を抽出し、2層のCNN でダウンサンプルして視覚トークンを得る • 視覚トークンをCLIPエンコーダに入力し、CLIPによる画像とテキス

• SAM [2] のバックボーン (ViTDet [3]) で特徴を抽出し、2層のCNN でダウンサンプルして視覚トークンを得る • 視覚トークンをCLIPエンコーダに入力し、CLIPによる画像とテキス

• SAM [2] のバックボーン (ViTDet [3]) で特徴を抽出し、2層のCNN でダウンサンプルして視覚トークンを得る • 視覚トークンをCLIPエンコーダに入力し、CLIPによる画像とテキス

• SAM [2] のバックボーン (ViTDet [3]) で特徴を抽出し、2層のCNN でダウンサンプルして視覚トークンを得る • 視覚トークンをCLIPエンコーダに入力し、CLIPによる画像とテキス

17 学習データセット OCR 70% Vision 20% Text 10%

18 学習データセット OCR 70% Vision 20% Text 10% • ドキュメントや自然画像中の文字を認識する古典的OCR

19 学習データセット OCR 70% Vision 20% Text 10% • ドキュメントや自然画像中の文字を認識する古典的OCR

20 学習データセット OCR 70% Vision 20% Text 10% • ドキュメントや自然画像中の文字を認識する古典的OCR

21 学習データセット OCR 70% Vision 20% Text 10% • DeepEncoderに用いている事前学習済みのCLIPから得られる一般的

22 性能評価〜圧縮率とOCR性能の関係〜 Tiny 512x512 Small 640x640 • 圧縮率（= 視覚トークン÷テキストトークン）

23 性能評価〜他OCR手法との比較〜少トークン・高性能従来手法よりも少ない視覚トークン数で高いOCR性能を実現（e.g., 約7000トークンのMinerU2.0よりも高い性能を約800トークンで実現）

24 人間の忘却メカニズムの模倣

26 [1] M. Dehghani et al., “Patch n’ Pack: NaViT,