[CVPR2025論文読み会] Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition

Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition 2025/08/24
第64回コンピュータビジョン勉強会＠関東 CVPR2025読み会(後編)

So UCHIDA (he/him) X : @s_aiueo32 GitHub : @S-aiueo32 Site
: https://about.uchida.so 経歴: - 2020/04 : 修士 (工学) - 2020/04-: 某名刺の会社で R&D 興味分野: - 文字認識 - 視覚文書理解 - 超解像趣味: サッカー観戦 (現地) ※本日は個人として参加

1. 背景 a. シーンテキスト認識 b. 自己教師あり学習 2. 紹介論文 a. 書誌情報
b. 提案手法 c. 実験・考察 3. まとめ目次

背景

- 情景画像から切り出されたテキスト領域から文字起こしする問題 - 位置不定・低画質であるためアノテーションコストが高い - モデル種別 - 言語非依存型: 視覚特徴のみから系列認識するモデル -
言語ベース型: 言語表現を用いてテキスト認識を支援 - 性能は言語ベース型の方が高いシーンテキスト認識 (Scene Text Recognition; STR) ABINet [Fang+ 2021]

自己教師あり学習 (Self-Supervised Learning; SSL) - データ自身から擬似ラベルを作成してモデルを学習する方法 - 良い表現を獲得するための事前学習として利用 - SimCLR
[Chen+ 2020] : Augmentation しても近い表現になるよう学習 - MAE [He+ 2022] : マスク部分を再構成して学習 SimCLR (https://simclr.github.io/ から引用) MAE (Masked-AutoEncoder)

STR×SSL: SeqCLR [Aberdam+ 2021] - 系列インスタンス間の表現が近くなるように学習 - 対応する系列インスタンス間の位置関係を保持するように工夫 - テキストがはみ出ない
Aug., Window 内特徴をインスタンスに変換 etc. - 仮説: 文字レベルの整合に注力し、全体の文脈を考慮できない SeqCLR の概略

STR×SSL: MAERec [Jiang+ 2023] - 大量のラベルなしデータを活用して SOTA - リアルデータのみで構成された Union14M
データセットを提案 - 1,000万件のラベルなしサブセットで MAE を学習 → Fine-tuning - 仮説: パッチ再構成は局所領域に頼りがち、全体の文脈を考慮できない MAERec の概略

背景まとめ - シーンテキスト認識 (Scene Text Recognition; STR) - 切り出されたテキスト領域から文字起こしする問題 -
アノテーションコストが高い - 言語情報を活用することで性能向上 - 自己教師あり学習 (Self-Supervised Learning; SSL) - 教師データを必要とせず表現を学習可能 - 対照学習・Masked Image Modeling (MIM) が主流 - STR×SSL の課題 - 局所領域の関係に注目してしまい、大域的な言語特徴を活用できない大域的な言語特徴を活用できる STR×SSL 手法の開発が必要

論文紹介

書誌情報実装: https://github.com/zhangyifei01/LMIM

概要 - Linguistics-aware Masked Image Modeling (LMIM) - 文字認識に特化した Masked
image Modeling - 言語特徴を抽出するブランチを用意して特徴抽出・再構成をガイド - 既存 SSL に比べ平均的に性能向上 & Attention マップの改善を確認 LMIM の概略図

Guidance View Generation - テキストはそのままで外観が強く変化する Aug. を適用 - Weak :
単純な幾何変換 (crop, rotation etc.) - Medium : +色変換, 歪み処理, 射影変換 - Strong : +変換レベルを強調参考: SeqCLR で適用される Augmentation

Linguistics Alignment - [CLS] トークンの特徴を整合 - [CLS] トークンを導入することで大域的特徴を表現 - 再構成ブランチに大域的言語特徴の学習を強制
Encoder Encoder Linguistic branch Reconstruction branch Alignment Loss (MSE) [CLS] [CLS] Share

- 大域的言語特徴を注入して画像デコード - カンペを渡すため再構成自体は容易化 - 対応領域の特徴を近づけることにフォーカスして学習が進行 - 簡単にしすぎない工夫 -
マスク率 80% を採用 - 75% が一般的 - 特徴量を学習ターゲットに採用 - 局所パターンの再現に囚われないように誘導 Linguistics-guided Reconstruction Mask-inserted Features Self-attn Cross-attn FFN Decoder Linguistic Features MAERec Feat. Reconstruction Loss (MSE)

実験設定 - データセット - 事前学習 - Union14M-U [Jiang+ 2023] :
1,000 万件のラベルなしデータ (英) - UCTI-11M (著者らが収集) : 1,100 万件のラベルなしデータ (中) - ファインチューニング - ARD [Yang+ 2022] : 280 万件のリアルデータ (英) - Union14M-L [Jiang+ 2023] : 320 万件のリアルデータ (英) - BCTR [Chen+ 2021] : 110 万件のリアルデータ (中) - ベンチマーク - 6 Common Benckmarks [Baek+ 2019] : STR の標準ベンチマーク (英) - Union14M [Jiang+ 2023] : 41 万件の英語ベンチマーク (英) - BCTR [Chen+ 2021] : 15 万件の中国語ベンチマーク (中)

実験設定 - 事前学習 (LMIM) - エンコーダ : ViT-S (12 layer)
- デコーダ : 2-layer Transformer blocks (SA-CA-FFN) - 再構成ターゲット : MAERec [Jiang+ ICCV2023] のエンコーダ特徴 - マスキング戦略 : Random, 80% - Augmentation 強度 : Medium - ファインチューニング時 (STR) - デコーダ : 6-layer Transformer blocks - 評価指標 - 英: WAICS (Word Accuracy Ignoring Case and Symbols) - 中: Sequence-level Accuracy

Ablation Study 言語特徴の注入方法デコーダアーキテクチャ Augmentationの強さマスク戦略 & 割合再構成ターゲット

定量評価 - 平均的には性能向上しているが …

定量評価 - 平均的には性能向上しているが … 負けとる ...

- Attention マップの比較 - SeqCLR - マップに文字の構造が現れず、文字間の関係性を学習できていない - MIM
- 局所情報のみで再構成できるためクエリ周辺に注意が集中している - LMIM - クエリ位置によらず文字領域を注視 - → 視覚・言語情報を参照できている定性評価

まとめ - STR×SSL - SimCLR, MIM の派生系が STR 文脈でも利用されている -
大域的な言語情報の活用が課題 - 提案手法: LMIM - テキスト保持と外観変化を両立する augmentation を適用 - [CLS] トークン導入・局所特徴への依存性を下げる工夫を実施 - 平均的に性能は向上・Attention の可視化を通して特徴表現の改善を確認 - 所感 - 実験を追加して勝つのは良いが、苦手なケースについて分析して欲しかった - 固定パッチサイズによるマスキングに課題感があるらしいので今後に期待

[Baek+ 2019] Baek et al., “What Is Wrong with Scene
Text Recognition Model Comparisons? Dataset and Model Analysis,” in Proc. ICCV, 2019, pp. 4714–4722. [Chen+ 2020] Chen et al., “A Simple Framework for Contrastive Learning of Visual Representations,” in Proc. ICML, PMLR 119, 2020, pp. 1597–1607. [Aberdam+ 2021] Aberdam et al., “Sequence-to-Sequence Contrastive Learning for Text Recognition,” in Proc. CVPR, 2021, pp. 15302–15312. [Chen+ 2021] Chen et al., “Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study,” arXiv:2112.15093, 2021. [He+ 2022] He et al., “Masked Autoencoders Are Scalable Vision Learners,” in Proc. CVPR, 2022, pp. 16000–16009. [Yang+ 2022] Yang et al., “Reading and Writing: Discriminative and Generative Modeling for Self-Supervised Text Recognition,” in Proc. ACM MM, 2022, pp. 4214–4223. 参考文献

参考文献 [Fang+ 2021] Fang et al., “Read Like Humans: Autonomous,
Bidirectional and Iterative Language Modeling for Scene Text Recognition,” in Proc. CVPR, 2021, pp. 7098–7107. [Jiang+ 2023] Jiang et al., “Revisiting Scene Text Recognition: A Data Perspective,” in Proc. ICCV, 2023, pp. 20543–20554. [Zhang+ 2025] Zhang et al., “Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition,” in Proc. CVPR, 2025, pp. 9318–9328.

[CVPR2025論文読み会] Linguistics-aware Masked Image ...

[CVPR2025論文読み会] Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition

So Uchida

More Decks by So Uchida

Other Decks in Technology

Featured

Transcript

Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition 2025/08/24

So UCHIDA (he/him) X : @s_aiueo32 GitHub : @S-aiueo32 Site

1. 背景 a. シーンテキスト認識 b. 自己教師あり学習 2. 紹介論文 a. 書誌情報

背景

- 情景画像から切り出されたテキスト領域から文字起こしする問題 - 位置不定・低画質であるためアノテーションコストが高い - モデル種別 - 言語非依存型: 視覚特徴のみから系列認識するモデル -

自己教師あり学習 (Self-Supervised Learning; SSL) - データ自身から擬似ラベルを作成してモデルを学習する方法 - 良い表現を獲得するための事前学習として利用 - SimCLR

STR×SSL: SeqCLR [Aberdam+ 2021] - 系列インスタンス間の表現が近くなるように学習 - 対応する系列インスタンス間の位置関係を保持するように工夫 - テキストがはみ出ない

STR×SSL: MAERec [Jiang+ 2023] - 大量のラベルなしデータを活用して SOTA - リアルデータのみで構成された Union14M

背景まとめ - シーンテキスト認識 (Scene Text Recognition; STR) - 切り出されたテキスト領域から文字起こしする問題 -

論文紹介

書誌情報実装: https://github.com/zhangyifei01/LMIM

概要 - Linguistics-aware Masked Image Modeling (LMIM) - 文字認識に特化した Masked

Guidance View Generation - テキストはそのままで外観が強く変化する Aug. を適用 - Weak :

Linguistics Alignment - [CLS] トークンの特徴を整合 - [CLS] トークンを導入することで大域的特徴を表現 - 再構成ブランチに大域的言語特徴の学習を強制

- 大域的言語特徴を注入して画像デコード - カンペを渡すため再構成自体は容易化 - 対応領域の特徴を近づけることにフォーカスして学習が進行 - 簡単にしすぎない工夫 -

実験設定 - データセット - 事前学習 - Union14M-U [Jiang+ 2023] :

実験設定 - 事前学習 (LMIM) - エンコーダ : ViT-S (12 layer)

Ablation Study 言語特徴の注入方法デコーダアーキテクチャ Augmentationの強さマスク戦略 & 割合再構成ターゲット

定量評価 - 平均的には性能向上しているが …

定量評価 - 平均的には性能向上しているが … 負けとる ...

- Attention マップの比較 - SeqCLR - マップに文字の構造が現れず、文字間の関係性を学習できていない - MIM

まとめ - STR×SSL - SimCLR, MIM の派生系が STR 文脈でも利用されている -

[Baek+ 2019] Baek et al., “What Is Wrong with Scene

参考文献 [Fang+ 2021] Fang et al., “Read Like Humans: Autonomous,