Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Revisiting Scene Text Recognition: A Data Perspective

Sansan R&D
November 02, 2023

Revisiting Scene Text Recognition: A Data Perspective

■イベント :第60回 コンピュータビジョン勉強会@関東
https://kantocv.connpass.com/event/297737/

■登壇概要
タイトル:Revisiting Scene Text Recognition: A Data Perspective
発表者: 技術本部 研究開発部 Automationグループ 内田 奏

◉ 研究開発職 採用情報
https://media.sansan-engineering.com/randd

◉ Sansan Tech Blog
https://buildersbox.corp-sansan.com/

Sansan R&D

November 02, 2023
Tweet

More Decks by Sansan R&D

Other Decks in Technology

Transcript

  1. Revisiting Scene Text
    Recognition: A Data Perspective
    Sansan株式会社 技術本部 研究開発部
    内⽥ 奏
    第60回 コンピュータビジョン勉強会@関東

    View full-size slide

  2. 写真が⼊ります
    内⽥ 奏
    Sansan株式会社 技術本部 研究開発部
    シニアリサーチャー
    東京電機⼤学⼤学院⼯学研究科修⼠課程修了。
    深層学習を⽤いた画像⽣成・変換に関する研究に取り組む。
    2020年Sansan株式会社に新卒⼊社。
    名刺画像の品質およびOCR精度の改善に関する研究開発に従事。

    View full-size slide

  3. 1. 論⽂概要
    2. テキスト認識
    1. 問題設定
    2. 研究動向・分析
    3. 提案データセット: Union14M
    4. 実験
    5. まとめ
    ⽬次

    View full-size slide

  4. 書誌情報
    - タイトル: Revisiting Scene Text Recognition: A Data Perspective
    - 著者: Qing Jiang, Jiapeng Wang, Dezhi Peng, Chongyu Liu, Lianwen Jin
    - 所属: South China University of Technology
    概要
    - 「テキスト認識は解決された問題か?」をデータ観点で議論
    - ⼤規模リアルデータセット Union14M を提案し、さらなる研究の余地を提起
    選定理由
    - 実務ではデータに向き合うタイミングの⽅が多く、問題意識に共感したため
    論⽂情報

    View full-size slide

  5. テキスト認識

    View full-size slide

  6. シーンテキスト認識 (Scene Text Recognition; STR)
    - 情景画像から切り出されたテキスト領域から⽂字起こしする問題
    > 情景画像は背景や歪みを含み、⽂書のテキスト認識より難しいとされる
    > 要素技術は変わらないため、以降これらを区別しない
    - 基本的なアプローチ
    > Segmentation-based: 各⽂字を切り出して1⽂字ずつ当てに⾏く
    > Segmentation-free: ⼊⼒画像に対するラベル列を当てに⾏く
    - 深層学習の登場以降はこちらが主流
    - ⾃然⾔語処理・⾳声認識 (ASR) などの系列認識問題と関わりが深い
    問題設定

    View full-size slide

  7. CNN+RNN の組み合わせで解く
    - CRNN [Shi+ 2017]: VGG16+BiLSTM+CTC
    - RARE [Shi+ 2016]: STN+VGG16+BiLSTM+Attention
    - ASTER [Shi+ 2019]: STN+ResNet+BiLSTM+Attention
    RNN 時代 (2015-2019)
    テキスト認識の流れ [Baek+ 2019]

    View full-size slide

  8. テキスト認識にも Transformer [Vaswani+ 2017] が襲来
    - NRTR [Sheng+ 2019]: 1D 特徴に Transformer を適⽤
    - SATRN [Lee+ 2020]: 位置埋め込みを改良して 2D 認識に対応
    - ViTSTR [Atienza 2021]: ViT [Dosovitskiy+ 2019]に⽂字出⼒⽤ヘッドを追加
    Transformer 時代 (2019-2021)
    RNN系とSATRNの⽐較 ViTSTR の構造

    View full-size slide

  9. Context-aware なテキスト認識を⽬指す
    Vision & Language 時代 (2020-)
    SRN [Yu+ 2020] ABINet [Fang+ 2021] VisionLAN [Wang+ 2021] MATRN [Na+ 2022]
    詳しくは 👉

    View full-size slide

  10. NineOCR: 名刺に特化した独⾃ OCR エンジン
    - Transformer 時代のモデルが稼働
    > 複数⾏テキスト認識可能, モデルサイズが適度, ⼀般語彙に引っ張られない etc.
    - テキスト認識に関する論⽂投稿
    > ViTSTR に⾃動補正機能を付与したモデルの提案
    Sansan での取り組み
    名刺データ化のコスト削減に貢献 Iterative ViTSTR [⽵⻑+ 2023]

    View full-size slide

  11. モデル構造による性能向上は鈍化
    性能の変遷
    Vision & Language 時代
    Transformer 時代
    RNN 時代
    テキスト認識は解決された問題なのか?

    View full-size slide

  12. 学習データ
    - フォントをレンダリングした⼈⼯データ
    > MJSynth [Jaderberg+ 2014], SynthText [Gupta+ 2016]
    - ⾃然画像からテキスト領域を切り出したデータ
    > COCO-Text [Veit+ 2016], Uber-Text [Zhang+ 2017] etc.
    > ku21fan/STR-Fewer-Labels [Baek+ 2021]
    評価データ
    - clovaai/deep-text-recognition-benchmark [Baek+ 2019]
    > 著名なベンチマークデータセットを6つまとめたもの
    テキスト認識のデータセット

    View full-size slide

  13. 13個のベンチマークモデルをアンサンブル※
    評価データの分析
    ※ 1つでも正しい⽂字列が出⼒できれば正解とする
    誤り率は3.9% (298/7672) 伸び代は 1.53-2.91% 程度?
    エラー分析から知⾒を得るには、より多様なデータが必要そう

    View full-size slide

  14. 実画像から切り出した14Mのテキストを含むデータセット
    Union14M
    Union14M の構成要素
    Union14M のサンプル

    View full-size slide

  15. Union14M のラベル付きサブセット (4M)
    - データセットの結合⽅法
    > クロップ⽅法
    - XY軸に沿ったポリゴンの外接矩形によってクロップ
    - 背景にノイズを導⼊するため正則化の効果あり
    > 重複サンプルの除去
    - 共通の⼀般物体認識データセット (e.g., OpenImages) を利⽤している場合が多いため
    > ⾮ラテン⽂字の除去
    - CH, KR, IN などを除去
    - テキスト認識の教師あり学習に利⽤可能
    Union14M-L

    View full-size slide

  16. Union14M のラベルなしサブセット (10M)
    - 3つのテキスト検出器の推論値を投票して切り出し
    - ⾃⼰教師あり学習に利⽤可能
    Union14M-U
    IoU voting の例

    View full-size slide

  17. 既存研究で議論されるチャレンジ
    - Curve
    > 湾曲しているテキスト
    - Multi-Oriented
    > Left-to-right 以外の読み順
    - Artistic
    > ロゴデザイン等の芸術的なテキスト
    - Contextless
    > 数字やアルファベットの羅列
    Union14M が内包するチャレンジ ①

    View full-size slide

  18. 既存研究であまり議論されないチャレンジ
    - Salient
    > 主題以外のテキストを含む
    - Multi-Words
    > 複数の単語を含む
    > ⼀般的なテキスト認識は
    単語単位で性能を測る
    - Incomplete
    > 単語が途中で切れている
    > テキスト認識は本来字⾯を読むべき
    Union14M が内包するチャレンジ ②

    View full-size slide

  19. チャレンジドリブンなテストセット
    - Challenge-specific subsets
    > Union14M-L から⼿動で各チャレンジに該当するサンプルを選択
    > Incomplete は⼤半のベンチマークモデルが正しく読めるサンプルを選択
    - ⾃動補正機能に関して調査するため
    - ランダムに最初/最後の⽂字を切り捨てる
    - General subset
    > チャレンジに該当しないサンプルも
    多様な歪みを含む
    > Val / Benchmark で各0.4Mずつサンプリング
    Union14M-Benchmark
    Union14M-L の内訳

    View full-size slide

  20. 学習設定
    - 事前分析で利⽤した13個のモデルを⼈⼯データ・Union14Mで学習
    > 全て論⽂記載のハイパーパラメータを利⽤
    - 出⼒クラス数は91 (数字, ⼤⽂字/⼩⽂字, シンボル, スペース)
    評価指標
    - WA (Word Accuracy): 単語が完全⼀致している割合
    - WAIC (WA Ignoring Case): ⼤⽂字/⼩⽂字を無視
    - WAICS (WA Ignoring Case and Symbol): ⼤⽂字/⼩⽂字/シンボルを無視
    - Incomplete サブセットに対しては、WA のドロップで評価 (lower is better)
    実験設定

    View full-size slide

  21. ⼈⼯データでの学習

    View full-size slide

  22. ⼈⼯データでの学習
    Union14M 上で性能ドロップが⼤きい → チャレンジングなデータといえる

    View full-size slide

  23. ⼈⼯データでの学習
    LM を⽤いた⼿法で Incomplete のドロップが⼤きい → エラー修正機構が悪さをしていそう

    View full-size slide

  24. Union14M-L での学習

    View full-size slide

  25. Union14M-L での学習
    平均 3.9% UP 平均 19.6% UP
    リアルデータでの訓練が効果的であるといえる

    View full-size slide

  26. Union14M-L での学習
    Union14M 上での最⾼性能は 74.6% → テキスト認識が解決済みとはいえなそう

    View full-size slide

  27. MAERec
    - Union14M-U を⽤いて事前学習 (Masked Image Modeling)
    - 事前学習済みのエンコーダを⽤いて Transformer デコーダを Fine-tuning
    Union14M-U の活⽤⽅法

    View full-size slide

  28. Masked Image Modeling による画像再構成結果

    View full-size slide

  29. ベンチマークモデルとの⽐較
    平均 1.0% UP 平均 5.1% UP

    View full-size slide

  30. テキスト認識について
    - 問題設定
    - モデル・データセットの研究動向
    Union14M
    - 実画像から切り出した⼤規模データセット
    > Salient / Incomplete 等、従来にないチャレンジを含む
    - 実験を通してテキスト認識にまだ研究の余地があることを⽰した
    - MAERec (Masked Image Modeling + Fine-tuning) が SOTA 達成
    まとめ

    View full-size slide

  31. Sansan R&D TECH SHOWCASE
    -ビジネスをドライブするR&Dのウラガワ⼤公開-
    11/10 (⾦) 19:00より、Sansanの研
    究開発部メンバーが6つの発表を通
    じて、プロダクトの進化のために
    どのように⾼速に仮説検証をすす
    め、リリースを実現しているのか
    をご紹介します。
    告知
    参加申し込みは
    connpassの
    Sansanページへ

    View full-size slide

  32. [Jaderberg+ 2014] M. Jaderberg, K. Simonyan, A. Vedaldi, and A. Zisserman, “Synthetic data and artificial neural networks for
    natural scene text recognition,” arXiv [cs.CV], Jun. 09, 2014. [Online]. Available: http://arxiv.org/abs/1406.2227
    [Gupta+ 2016] A. Gupta, A. Vedaldi, and A. Zisserman, “Synthetic Data for Text Localisation in Natural Images,” in 2016 IEEE
    Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2016, pp. 2315–2324.
    [Shi+ 2016] B. Shi, X. Wang, P. Lyu, C. Yao, and X. Bai, “Robust Scene Text Recognition with Automatic Rectification,” in 2016 IEEE
    Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2016, pp. 4168–4176.
    [Shi+ 2017] B. Shi, X. Bai, and C. Yao, “An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its
    Application to Scene Text Recognition,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 11, pp. 2298–2304, Nov. 2017.
    [Shi+ 2019] B. Shi, M. Yang, X. Wang, P. Lyu, C. Yao, and X. Bai, “ASTER: An Attentional Scene Text Recognizer with Flexible
    Rectification,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 41, no. 9, pp. 2035–2048, Sep. 2019.
    [Sheng+ 2019] F. Sheng, Z. Chen, and B. Xu, “NRTR: A No-Recurrence Sequence-to-Sequence Model for Scene Text Recognition,”
    in 2019 International Conference on Document Analysis and Recognition (ICDAR), Sep. 2019, pp. 781–786.
    [Baek+ 2019] J. Baek et al., “What is wrong with scene text recognition model comparisons? Dataset and model analysis,” in 2019
    IEEE/CVF International Conference on Computer Vision (ICCV), IEEE, Oct. 2019, pp. 4714–4722.
    [Yu+ 2020] D. Yu et al., “Towards Accurate Scene Text Recognition With Semantic Reasoning Networks,” in 2020 IEEE/CVF
    Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2020, pp. 12110–12119.
    参考⽂献

    View full-size slide

  33. [Lee+ 2020] J. Lee, S. Park, J. Baek, S. J. Oh, S. Kim, and H. Lee, “On Recognizing Texts of Arbitrary Shapes with 2D Self-
    Attention,” in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), IEEE, Jun. 2020, pp.
    2326–2335.
    [Fang+ 2021] S. Fang, H. Xie, Y. Wang, Z. Mao, and Y. Zhang, “Read like humans: Autonomous, bidirectional and iterative language
    modeling for scene text recognition,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,
    2021, pp. 7098–7107.
    [Wang+ 2021] Y. Wang, H. Xie, S. Fang, J. Wang, S. Zhu, and Y. Zhang, “From two to one: A new scene text recognizer with visual
    language modeling network,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 14194–
    14203.
    [Atienza 2021] R. Atienza, “Vision Transformer for Fast and Efficient Scene Text Recognition,” in Document Analysis and
    Recognition – ICDAR 2021, Springer International Publishing, 2021, pp. 319–334.
    [Na+ 2022] B. Na, Y. Kim, and S. Park, “Multi-modal Text Recognition Networks: Interactive Enhancements Between Visual and
    Semantic Features,” in Computer Vision – ECCV 2022, Springer Nature Switzerland, 2022, pp. 446–463.
    [Jiang+ 2023] Q. Jiang, J. Wang, D. Peng, C. Liu, and L. Jin, “Revisiting Scene Text Recognition: A Data Perspective,” in
    Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 20543–20554.
    [⽵⻑+ 2023] ⽵永慎太朗, 内⽥奏, “確信度に基づいた⾃⼰修正機構を持つ⾼速な⽂字認識モデル,” in MIRU2023.
    参考⽂献

    View full-size slide