Revisiting Scene Text Recognition: A Data Perspective

Revisiting Scene Text Recognition: A Data Perspective Sansan株式会社技術本部研究開発部
内⽥奏第60回コンピュータビジョン勉強会＠関東

写真が⼊ります内⽥奏 Sansan株式会社技術本部研究開発部シニアリサーチャー東京電機⼤学⼤学院⼯学研究科修⼠課程修了。深層学習を⽤いた画像⽣成・変換に関する研究に取り組む。 2020年Sansan株式会社に新卒⼊社。
名刺画像の品質およびOCR精度の改善に関する研究開発に従事。

1. 論⽂概要 2. テキスト認識 1. 問題設定 2. 研究動向・分析 3. 提案データセット:
Union14M 4. 実験 5. まとめ⽬次

書誌情報 - タイトル: Revisiting Scene Text Recognition: A Data Perspective
- 著者: Qing Jiang, Jiapeng Wang, Dezhi Peng, Chongyu Liu, Lianwen Jin - 所属: South China University of Technology 概要 - 「テキスト認識は解決された問題か?」をデータ観点で議論 - ⼤規模リアルデータセット Union14M を提案し、さらなる研究の余地を提起選定理由 - 実務ではデータに向き合うタイミングの⽅が多く、問題意識に共感したため論⽂情報

テキスト認識

シーンテキスト認識 (Scene Text Recognition; STR) - 情景画像から切り出されたテキスト領域から⽂字起こしする問題 > 情景画像は背景や歪みを含み、⽂書のテキスト認識より難しいとされる >
要素技術は変わらないため、以降これらを区別しない - 基本的なアプローチ > Segmentation-based: 各⽂字を切り出して1⽂字ずつ当てに⾏く > Segmentation-free: ⼊⼒画像に対するラベル列を当てに⾏く - 深層学習の登場以降はこちらが主流 - ⾃然⾔語処理・⾳声認識 (ASR) などの系列認識問題と関わりが深い問題設定

CNN+RNN の組み合わせで解く - CRNN [Shi+ 2017]: VGG16+BiLSTM+CTC - RARE [Shi+
2016]: STN+VGG16+BiLSTM+Attention - ASTER [Shi+ 2019]: STN+ResNet+BiLSTM+Attention RNN 時代 (2015-2019) テキスト認識の流れ [Baek+ 2019]

テキスト認識にも Transformer [Vaswani+ 2017] が襲来 - NRTR [Sheng+ 2019]: 1D
特徴に Transformer を適⽤ - SATRN [Lee+ 2020]: 位置埋め込みを改良して 2D 認識に対応 - ViTSTR [Atienza 2021]: ViT [Dosovitskiy+ 2019]に⽂字出⼒⽤ヘッドを追加 Transformer 時代 (2019-2021) RNN系とSATRNの⽐較 ViTSTR の構造

Context-aware なテキスト認識を⽬指す Vision & Language 時代 (2020-) SRN [Yu+ 2020]
ABINet [Fang+ 2021] VisionLAN [Wang+ 2021] MATRN [Na+ 2022] 詳しくは 👉

NineOCR: 名刺に特化した独⾃ OCR エンジン - Transformer 時代のモデルが稼働 > 複数⾏テキスト認識可能, モデルサイズが適度,
⼀般語彙に引っ張られない etc. - テキスト認識に関する論⽂投稿 > ViTSTR に⾃動補正機能を付与したモデルの提案 Sansan での取り組み名刺データ化のコスト削減に貢献 Iterative ViTSTR [⽵⻑+ 2023]

モデル構造による性能向上は鈍化性能の変遷 Vision & Language 時代 Transformer 時代 RNN 時代
テキスト認識は解決された問題なのか?

学習データ - フォントをレンダリングした⼈⼯データ > MJSynth [Jaderberg+ 2014], SynthText [Gupta+ 2016]
- ⾃然画像からテキスト領域を切り出したデータ > COCO-Text [Veit+ 2016], Uber-Text [Zhang+ 2017] etc. > ku21fan/STR-Fewer-Labels [Baek+ 2021] 評価データ - clovaai/deep-text-recognition-benchmark [Baek+ 2019] > 著名なベンチマークデータセットを6つまとめたものテキスト認識のデータセット

13個のベンチマークモデルをアンサンブル※ 評価データの分析 ※ 1つでも正しい⽂字列が出⼒できれば正解とする誤り率は3.9% (298/7672) 伸び代は 1.53-2.91% 程度? エラー分析から知⾒を得るには、より多様なデータが必要そう

Union14M

実画像から切り出した14Mのテキストを含むデータセット Union14M Union14M の構成要素 Union14M のサンプル

Union14M のラベル付きサブセット (4M) - データセットの結合⽅法 > クロップ⽅法 - XY軸に沿ったポリゴンの外接矩形によってクロップ -
背景にノイズを導⼊するため正則化の効果あり > 重複サンプルの除去 - 共通の⼀般物体認識データセット (e.g., OpenImages) を利⽤している場合が多いため > ⾮ラテン⽂字の除去 - CH, KR, IN などを除去 - テキスト認識の教師あり学習に利⽤可能 Union14M-L

Union14M のラベルなしサブセット (10M) - 3つのテキスト検出器の推論値を投票して切り出し - ⾃⼰教師あり学習に利⽤可能 Union14M-U IoU voting
の例

既存研究で議論されるチャレンジ - Curve > 湾曲しているテキスト - Multi-Oriented > Left-to-right 以外の読み順
- Artistic > ロゴデザイン等の芸術的なテキスト - Contextless > 数字やアルファベットの羅列 Union14M が内包するチャレンジ ①

既存研究であまり議論されないチャレンジ - Salient > 主題以外のテキストを含む - Multi-Words > 複数の単語を含む >
⼀般的なテキスト認識は単語単位で性能を測る - Incomplete > 単語が途中で切れている > テキスト認識は本来字⾯を読むべき Union14M が内包するチャレンジ ②

チャレンジドリブンなテストセット - Challenge-specific subsets > Union14M-L から⼿動で各チャレンジに該当するサンプルを選択 > Incomplete は⼤半のベンチマークモデルが正しく読めるサンプルを選択
- ⾃動補正機能に関して調査するため - ランダムに最初/最後の⽂字を切り捨てる - General subset > チャレンジに該当しないサンプルも多様な歪みを含む > Val / Benchmark で各0.4Mずつサンプリング Union14M-Benchmark Union14M-L の内訳

実験

学習設定 - 事前分析で利⽤した13個のモデルを⼈⼯データ・Union14Mで学習 > 全て論⽂記載のハイパーパラメータを利⽤ - 出⼒クラス数は91 (数字, ⼤⽂字/⼩⽂字, シンボル,
スペース) 評価指標 - WA (Word Accuracy): 単語が完全⼀致している割合 - WAIC (WA Ignoring Case): ⼤⽂字/⼩⽂字を無視 - WAICS (WA Ignoring Case and Symbol): ⼤⽂字/⼩⽂字/シンボルを無視 - Incomplete サブセットに対しては、WA のドロップで評価 (lower is better) 実験設定

⼈⼯データでの学習

⼈⼯データでの学習 Union14M 上で性能ドロップが⼤きい → チャレンジングなデータといえる

⼈⼯データでの学習 LM を⽤いた⼿法で Incomplete のドロップが⼤きい → エラー修正機構が悪さをしていそう

Union14M-L での学習

Union14M-L での学習平均 3.9% UP 平均 19.6% UP リアルデータでの訓練が効果的であるといえる

Union14M-L での学習 Union14M 上での最⾼性能は 74.6% → テキスト認識が解決済みとはいえなそう

MAERec - Union14M-U を⽤いて事前学習 (Masked Image Modeling) - 事前学習済みのエンコーダを⽤いて Transformer
デコーダを Fine-tuning Union14M-U の活⽤⽅法

Masked Image Modeling による画像再構成結果

ベンチマークモデルとの⽐較平均 1.0% UP 平均 5.1% UP

テキスト認識について - 問題設定 - モデル・データセットの研究動向 Union14M - 実画像から切り出した⼤規模データセット > Salient
/ Incomplete 等、従来にないチャレンジを含む - 実験を通してテキスト認識にまだ研究の余地があることを⽰した - MAERec (Masked Image Modeling + Fine-tuning) が SOTA 達成まとめ

Sansan R&D TECH SHOWCASE -ビジネスをドライブするR&Dのウラガワ⼤公開- 11/10 (⾦) 19:00より、Sansanの研究開発部メンバーが6つの発表を通じて、プロダクトの進化のために
どのように⾼速に仮説検証をすすめ、リリースを実現しているのかをご紹介します。告知参加申し込みは connpassの Sansanページへ

[Jaderberg+ 2014] M. Jaderberg, K. Simonyan, A. Vedaldi, and A.
Zisserman, “Synthetic data and artificial neural networks for natural scene text recognition,” arXiv [cs.CV], Jun. 09, 2014. [Online]. Available: http://arxiv.org/abs/1406.2227 [Gupta+ 2016] A. Gupta, A. Vedaldi, and A. Zisserman, “Synthetic Data for Text Localisation in Natural Images,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2016, pp. 2315–2324. [Shi+ 2016] B. Shi, X. Wang, P. Lyu, C. Yao, and X. Bai, “Robust Scene Text Recognition with Automatic Rectification,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2016, pp. 4168–4176. [Shi+ 2017] B. Shi, X. Bai, and C. Yao, “An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 11, pp. 2298–2304, Nov. 2017. [Shi+ 2019] B. Shi, M. Yang, X. Wang, P. Lyu, C. Yao, and X. Bai, “ASTER: An Attentional Scene Text Recognizer with Flexible Rectification,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 41, no. 9, pp. 2035–2048, Sep. 2019. [Sheng+ 2019] F. Sheng, Z. Chen, and B. Xu, “NRTR: A No-Recurrence Sequence-to-Sequence Model for Scene Text Recognition,” in 2019 International Conference on Document Analysis and Recognition (ICDAR), Sep. 2019, pp. 781–786. [Baek+ 2019] J. Baek et al., “What is wrong with scene text recognition model comparisons? Dataset and model analysis,” in 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE, Oct. 2019, pp. 4714–4722. [Yu+ 2020] D. Yu et al., “Towards Accurate Scene Text Recognition With Semantic Reasoning Networks,” in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2020, pp. 12110–12119. 参考⽂献

[Lee+ 2020] J. Lee, S. Park, J. Baek, S. J.
Oh, S. Kim, and H. Lee, “On Recognizing Texts of Arbitrary Shapes with 2D Self- Attention,” in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), IEEE, Jun. 2020, pp. 2326–2335. [Fang+ 2021] S. Fang, H. Xie, Y. Wang, Z. Mao, and Y. Zhang, “Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 7098–7107. [Wang+ 2021] Y. Wang, H. Xie, S. Fang, J. Wang, S. Zhu, and Y. Zhang, “From two to one: A new scene text recognizer with visual language modeling network,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 14194– 14203. [Atienza 2021] R. Atienza, “Vision Transformer for Fast and Efficient Scene Text Recognition,” in Document Analysis and Recognition – ICDAR 2021, Springer International Publishing, 2021, pp. 319–334. [Na+ 2022] B. Na, Y. Kim, and S. Park, “Multi-modal Text Recognition Networks: Interactive Enhancements Between Visual and Semantic Features,” in Computer Vision – ECCV 2022, Springer Nature Switzerland, 2022, pp. 446–463. [Jiang+ 2023] Q. Jiang, J. Wang, D. Peng, C. Liu, and L. Jin, “Revisiting Scene Text Recognition: A Data Perspective,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 20543–20554. [⽵⻑+ 2023] ⽵永慎太朗, 内⽥奏, “確信度に基づいた⾃⼰修正機構を持つ⾼速な⽂字認識モデル,” in MIRU2023. 参考⽂献

Revisiting Scene Text Recognition: A Data Persp...

Revisiting Scene Text Recognition: A Data Perspective

More Decks by Sansan R&D

Other Decks in Technology

Featured

Transcript