Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 DeepSeek-OCR ~画像によるコンテキスト圧縮は可能か?~

Avatar for Kazuyuki Miyazawa Kazuyuki Miyazawa
November 21, 2025
2

論文紹介 DeepSeek-OCR ~画像によるコンテキスト圧縮は可能か?~

DeNA/GO/GOドライブで実施しているコンピュータビジョン輪講での発表資料です

Avatar for Kazuyuki Miyazawa

Kazuyuki Miyazawa

November 21, 2025
Tweet

Transcript

  1. 2 • 中国のDeepSeekから10/20に論文と共にリリースされたOCRモデル • OCRと謳っているが、LLMの入力をテキストから画像に変えることで 大幅なコンテキスト圧縮が可能であることを示すのが本当の狙い DeepSeek-OCR [paper] [code] •

    DeepSeek-OCRは優れたOCRモデルだが、それ以上に重要なのは「LLMへの入力をテキスト ではなくピクセルにする」という発想 • テキストトークンは非効率・不自然であり、入力としては画像の方が望ましい可能性がある • テキストを画像としてレンダリングして入力すれば: ◦ 情報が圧縮できるためコンテキストウィンドウが短くなり効率が上がる ◦ 単なるテキストに加えてその装飾や、任意の画像などを統一的に扱える ◦ 双方向アテンションを自然に使える(非オートレグレッシブ) • トークナイザーは非エンドツーエンドで、Unicodeやバイト符号化などの「歴史的負債」を引 きずるため廃止すべき • OCRは「視覚→テキスト」変換の一形態にすぎず、将来的には「テキスト→テキスト」タス クも「視覚→テキスト」として統一的に扱えるかもしれない Andrej Karpathy氏の10/21のXポスト要約 https://karpathy.ai/assets/me_new.jpg
  2. 3 Contexts Optical Compression We present DeepSeek-OCR as an initial

    investigation into the feasibility of compressing long contexts via optical 2D mapping. DeepSeek-OCR consists of … LLM We present DeepSeek-OCR as an initial investigation into the feasibility of compressing long contexts via optical 2D mapping. DeepSeek-OCR consists of … LLM Vision Encoder テキスト 画像 テキスト トークン 視覚 トークン • テキストをそのままトークン化してLLMに入力するのではなく、まず 画像としてレンダリングし、視覚エンコーダを介してLLMに入力する • テキストトークンに比べ視覚トークンの方がリッチな情報表現が可能 であり、結果としてLLMに入力するトークンを大幅に圧縮できる • 既存のVLMの枠組みを使えば追加のオーバーヘッドなしで導入可能 • 本論文ではこの概念を実証するためのテストベッドとしてOCRを採用
  3. 10 エンコーダ (DeepEncoder) • SAM [2] のバックボーン (ViTDet [3]) で特徴を抽出し、2層のCNN

    でダウンサンプルして視覚トークンを得る • 視覚トークンをCLIPエンコーダに入力し、CLIPによる画像とテキス トのアラインメントの恩恵を受ける
  4. • SAM [2] のバックボーン (ViTDet [3]) で特徴を抽出し、2層のCNN でダウンサンプルして視覚トークンを得る • 視覚トークンをCLIPエンコーダに入力し、CLIPによる画像とテキス

    トのアラインメントの恩恵を受ける 11 エンコーダ (DeepEncoder) • 高解像度画像における計算量を抑え るため、アテンションの範囲をロー カルに限定するウィンドウアテン ションを用いたViTDetを採用 • 1024x1024入力でパッチサイズ16 の場合、4096トークンを出力
  5. • SAM [2] のバックボーン (ViTDet [3]) で特徴を抽出し、2層のCNN でダウンサンプルして視覚トークンを得る • 視覚トークンをCLIPエンコーダに入力し、CLIPによる画像とテキス

    トのアラインメントの恩恵を受ける 12 エンコーダ (DeepEncoder) • Conv 2層でトークンを1/16に圧縮 • SAM出力が4096トークンの場合、256 トークンに
  6. • SAM [2] のバックボーン (ViTDet [3]) で特徴を抽出し、2層のCNN でダウンサンプルして視覚トークンを得る • 視覚トークンをCLIPエンコーダに入力し、CLIPによる画像とテキス

    トのアラインメントの恩恵を受ける 13 エンコーダ (DeepEncoder) • CLIPへの入力は画像では ないため、最初のパッチ 埋め込み層を削除 • SAM (ViTDet) ではロー カルに限定されていたア テンションをグローバル に適用
  7. • SAM [2] のバックボーン (ViTDet [3]) で特徴を抽出し、2層のCNN でダウンサンプルして視覚トークンを得る • 視覚トークンをCLIPエンコーダに入力し、CLIPによる画像とテキス

    トのアラインメントの恩恵を受ける 14 エンコーダ (DeepEncoder) • (論文に記載はないが)SAM 出力トークンとCLIP出力 トークンを特徴量の次元方向 に結合した上でプロジェクタ (MLPなど)に通している • ビジョンエンコーダとデコー ダ(LLM)との橋渡しをして いると思われる
  8. 18 学習データセット OCR 70% Vision 20% Text 10% • ドキュメントや自然画像中の文字を認識する古典的OCR

    (OCR-1.0) に加え、グラフや化学式、幾何学的な図形の認識も含んだOCR-2.0向 けのデータも利用 • OCR-1.0: PDF 3000万枚、Word 300万枚、自然画像 200万枚 • OCR-2.0: グラフ1000万枚、化学式500万枚、幾何図形100万枚
  9. 19 学習データセット OCR 70% Vision 20% Text 10% • ドキュメントや自然画像中の文字を認識する古典的OCR

    (OCR-1.0) に加え、グラフや化学式、幾何学的な図形の認識も含んだOCR-2.0向 けのデータも利用 • OCR-1.0: PDF 3000万枚、Word 300万枚、自然画像 200万枚 • OCR-2.0: グラフ1000万枚、化学式500万枚、幾何図形100万枚 OCR-1.0
  10. 20 学習データセット OCR 70% Vision 20% Text 10% • ドキュメントや自然画像中の文字を認識する古典的OCR

    (OCR-1.0) に加え、グラフや化学式、幾何学的な図形の認識も含んだOCR-2.0向 けのデータも利用 • OCR-1.0: PDF 3000万枚、Word 300万枚、自然画像 200万枚 • OCR-2.0: グラフ1000万枚、化学式500万枚、幾何図形100万枚 OCR-2.0
  11. 21 学習データセット OCR 70% Vision 20% Text 10% • DeepEncoderに用いている事前学習済みのCLIPから得られる一般的

    な視覚に関する知識を保持するため、キャプション生成や物体検出、 グラウンディングといった視覚タスク向けのデータも利用 • モデルの言語能力を確保するためテキストのみのデータも利用
  12. 22 性能評価 〜圧縮率とOCR性能の関係〜 Tiny 512x512 Small 640x640 • 圧縮率(= 視覚トークン÷テキストトークン)

    1/10程度までPrecision約97%を維持 • それ以上の圧縮率で性能が低下する要因は、長い文章だとレイアウト が複雑になることや、レンダリングの解像度が不足することなど
  13. 25 • これからはLLMもCVエンジニアの時代 • (学術論文ではないため?)Ablation studyがなく提案アーキテク チャのどこが本質的に重要なのかがわからなかった • OCRは文字情報の保存度を測るタスクとしては良いと思うが、意味情 報の保存度は測れないので、OCR精度が高いからといってコンテキス

    ト圧縮ができていると言っていいのだろうか(逆にOCR精度が低くて もコンテキスト圧縮ができている可能性もある?) • いずれにせよ1つの方向性としては興味深く、深掘りできそう(され てそう [4]) まとめ
  14. 26 [1] M. Dehghani et al., “Patch n’ Pack: NaViT,

    a Vision Transformer for any Aspect Ratio and Resolution,” NurIPS, 2023. [2] A. Kirillov et al., “Segment Anything,” arXiv, 2023. [3] Y. Li et al., “Exploring Plain Vision Transformer Backbones for Object Detection,” arXiv, 2022. [4] P. Rust et al., “Language Modelling with Pixels,” ICLR, 2023. 参考文献