investigation into the feasibility of compressing long contexts via optical 2D mapping. DeepSeek-OCR consists of … LLM We present DeepSeek-OCR as an initial investigation into the feasibility of compressing long contexts via optical 2D mapping. DeepSeek-OCR consists of … LLM Vision Encoder テキスト 画像 テキスト トークン 視覚 トークン • テキストをそのままトークン化してLLMに入力するのではなく、まず 画像としてレンダリングし、視覚エンコーダを介してLLMに入力する • テキストトークンに比べ視覚トークンの方がリッチな情報表現が可能 であり、結果としてLLMに入力するトークンを大幅に圧縮できる • 既存のVLMの枠組みを使えば追加のオーバーヘッドなしで導入可能 • 本論文ではこの概念を実証するためのテストベッドとしてOCRを採用
a Vision Transformer for any Aspect Ratio and Resolution,” NurIPS, 2023. [2] A. Kirillov et al., “Segment Anything,” arXiv, 2023. [3] Y. Li et al., “Exploring Plain Vision Transformer Backbones for Object Detection,” arXiv, 2022. [4] P. Rust et al., “Language Modelling with Pixels,” ICLR, 2023. 参考文献