Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[CVPR2025論文読み会] Linguistics-aware Masked Image ...

Avatar for So Uchida So Uchida
August 22, 2025

[CVPR2025論文読み会] Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition

Avatar for So Uchida

So Uchida

August 22, 2025
Tweet

More Decks by So Uchida

Other Decks in Technology

Transcript

  1. Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition 2025/08/24

    第64回 コンピュータビジョン勉強会@関東 CVPR2025読み会(後編)
  2. So UCHIDA (he/him) X : @s_aiueo32 GitHub : @S-aiueo32 Site

    : https://about.uchida.so 経歴: - 2020/04 : 修士 (工学) - 2020/04-: 某名刺の会社で R&D 興味分野: - 文字認識 - 視覚文書理解 - 超解像 趣味: サッカー観戦 (現地) ※本日は個人として参加
  3. - 情景画像から切り出されたテキスト領域から文字起こしする問題 - 位置不定・低画質であるためアノテーションコストが高い - モデル種別 - 言語非依存型: 視覚特徴のみから系列認識するモデル -

    言語ベース型: 言語表現を用いてテキスト認識を支援 - 性能は言語ベース型の方が高い シーンテキスト認識 (Scene Text Recognition; STR) ABINet [Fang+ 2021]
  4. 自己教師あり学習 (Self-Supervised Learning; SSL) - データ自身から擬似ラベルを作成してモデルを学習する方法 - 良い表現を獲得するための事前学習として利用 - SimCLR

    [Chen+ 2020] : Augmentation しても近い表現になるよう学習 - MAE [He+ 2022] : マスク部分を再構成して学習 SimCLR (https://simclr.github.io/ から引用) MAE (Masked-AutoEncoder)
  5. STR×SSL: SeqCLR [Aberdam+ 2021] - 系列インスタンス間の表現が近くなるように学習 - 対応する系列インスタンス間の位置関係を保持するように工夫 - テキストがはみ出ない

    Aug., Window 内特徴をインスタンスに変換 etc. - 仮説: 文字レベルの整合に注力し、全体の文脈を考慮できない SeqCLR の概略
  6. STR×SSL: MAERec [Jiang+ 2023] - 大量のラベルなしデータを活用して SOTA - リアルデータのみで構成された Union14M

    データセットを提案 - 1,000万件のラベルなしサブセットで MAE を学習 → Fine-tuning - 仮説: パッチ再構成は局所領域に頼りがち、全体の文脈を考慮できない MAERec の概略
  7. 背景まとめ - シーンテキスト認識 (Scene Text Recognition; STR) - 切り出されたテキスト領域から文字起こしする問題 -

    アノテーションコストが高い - 言語情報を活用することで性能向上 - 自己教師あり学習 (Self-Supervised Learning; SSL) - 教師データを必要とせず表現を学習可能 - 対照学習・Masked Image Modeling (MIM) が主流 - STR×SSL の課題 - 局所領域の関係に注目してしまい、大域的な言語特徴を活用できない 大域的な言語特徴を活用できる STR×SSL 手法の開発が必要
  8. 概要 - Linguistics-aware Masked Image Modeling (LMIM) - 文字認識に特化した Masked

    image Modeling - 言語特徴を抽出するブランチを用意して特徴抽出・再構成をガイド - 既存 SSL に比べ平均的に性能向上 & Attention マップの改善を確認 LMIM の概略図
  9. Guidance View Generation - テキストはそのままで外観が強く変化する Aug. を適用 - Weak :

    単純な幾何変換 (crop, rotation etc.) - Medium : +色変換, 歪み処理, 射影変換 - Strong : +変換レベルを強調 参考: SeqCLR で適用される Augmentation
  10. - 大域的言語特徴を注入して画像デコード - カンペを渡すため再構成自体は容易化 - 対応領域の特徴を近づけることにフォー カスして学習が進行 - 簡単にしすぎない工夫 -

    マスク率 80% を採用 - 75% が一般的 - 特徴量を学習ターゲットに採用 - 局所パターンの再現に 囚われないように誘導 Linguistics-guided Reconstruction Mask-inserted Features Self-attn Cross-attn FFN Decoder Linguistic Features MAERec Feat. Reconstruction Loss (MSE)
  11. 実験設定 - データセット - 事前学習 - Union14M-U [Jiang+ 2023] :

    1,000 万件のラベルなしデータ (英) - UCTI-11M (著者らが収集) : 1,100 万件のラベルなしデータ (中) - ファインチューニング - ARD [Yang+ 2022] : 280 万件のリアルデータ (英) - Union14M-L [Jiang+ 2023] : 320 万件のリアルデータ (英) - BCTR [Chen+ 2021] : 110 万件のリアルデータ (中) - ベンチマーク - 6 Common Benckmarks [Baek+ 2019] : STR の標準ベンチマーク (英) - Union14M [Jiang+ 2023] : 41 万件の英語ベンチマーク (英) - BCTR [Chen+ 2021] : 15 万件の中国語ベンチマーク (中)
  12. 実験設定 - 事前学習 (LMIM) - エンコーダ : ViT-S (12 layer)

    - デコーダ : 2-layer Transformer blocks (SA-CA-FFN) - 再構成ターゲット : MAERec [Jiang+ ICCV2023] のエンコーダ特徴 - マスキング戦略 : Random, 80% - Augmentation 強度 : Medium - ファインチューニング時 (STR) - デコーダ : 6-layer Transformer blocks - 評価指標 - 英: WAICS (Word Accuracy Ignoring Case and Symbols) - 中: Sequence-level Accuracy
  13. - Attention マップの比較 - SeqCLR - マップに文字の構造が現れず、 文字間の関係性を学習できていない - MIM

    - 局所情報のみで再構成できるため クエリ周辺に注意が集中している - LMIM - クエリ位置によらず文字領域を注視 - → 視覚・言語情報を参照できている 定性評価
  14. まとめ - STR×SSL - SimCLR, MIM の派生系が STR 文脈でも利用されている -

    大域的な言語情報の活用が課題 - 提案手法: LMIM - テキスト保持と外観変化を両立する augmentation を適用 - [CLS] トークン導入・局所特徴への依存性を下げる工夫を実施 - 平均的に性能は向上・Attention の可視化を通して特徴表現の改善を確認 - 所感 - 実験を追加して勝つのは良いが、苦手なケースについて分析して欲しかった - 固定パッチサイズによるマスキングに課題感があるらしいので今後に期待
  15. [Baek+ 2019] Baek et al., “What Is Wrong with Scene

    Text Recognition Model Comparisons? Dataset and Model Analysis,” in Proc. ICCV, 2019, pp. 4714–4722. [Chen+ 2020] Chen et al., “A Simple Framework for Contrastive Learning of Visual Representations,” in Proc. ICML, PMLR 119, 2020, pp. 1597–1607. [Aberdam+ 2021] Aberdam et al., “Sequence-to-Sequence Contrastive Learning for Text Recognition,” in Proc. CVPR, 2021, pp. 15302–15312. [Chen+ 2021] Chen et al., “Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study,” arXiv:2112.15093, 2021. [He+ 2022] He et al., “Masked Autoencoders Are Scalable Vision Learners,” in Proc. CVPR, 2022, pp. 16000–16009. [Yang+ 2022] Yang et al., “Reading and Writing: Discriminative and Generative Modeling for Self-Supervised Text Recognition,” in Proc. ACM MM, 2022, pp. 4214–4223. 参考文献
  16. 参考文献 [Fang+ 2021] Fang et al., “Read Like Humans: Autonomous,

    Bidirectional and Iterative Language Modeling for Scene Text Recognition,” in Proc. CVPR, 2021, pp. 7098–7107. [Jiang+ 2023] Jiang et al., “Revisiting Scene Text Recognition: A Data Perspective,” in Proc. ICCV, 2023, pp. 20543–20554. [Zhang+ 2025] Zhang et al., “Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition,” in Proc. CVPR, 2025, pp. 9318–9328.