Slide 1

Slide 1 text

Revisiting Scene Text Recognition: A Data Perspective Sansan株式会社 技術本部 研究開発部 内⽥ 奏 第60回 コンピュータビジョン勉強会@関東

Slide 2

Slide 2 text

写真が⼊ります 内⽥ 奏 Sansan株式会社 技術本部 研究開発部 シニアリサーチャー 東京電機⼤学⼤学院⼯学研究科修⼠課程修了。 深層学習を⽤いた画像⽣成・変換に関する研究に取り組む。 2020年Sansan株式会社に新卒⼊社。 名刺画像の品質およびOCR精度の改善に関する研究開発に従事。

Slide 3

Slide 3 text

1. 論⽂概要 2. テキスト認識 1. 問題設定 2. 研究動向・分析 3. 提案データセット: Union14M 4. 実験 5. まとめ ⽬次

Slide 4

Slide 4 text

書誌情報 - タイトル: Revisiting Scene Text Recognition: A Data Perspective - 著者: Qing Jiang, Jiapeng Wang, Dezhi Peng, Chongyu Liu, Lianwen Jin - 所属: South China University of Technology 概要 - 「テキスト認識は解決された問題か?」をデータ観点で議論 - ⼤規模リアルデータセット Union14M を提案し、さらなる研究の余地を提起 選定理由 - 実務ではデータに向き合うタイミングの⽅が多く、問題意識に共感したため 論⽂情報

Slide 5

Slide 5 text

テキスト認識

Slide 6

Slide 6 text

シーンテキスト認識 (Scene Text Recognition; STR) - 情景画像から切り出されたテキスト領域から⽂字起こしする問題 > 情景画像は背景や歪みを含み、⽂書のテキスト認識より難しいとされる > 要素技術は変わらないため、以降これらを区別しない - 基本的なアプローチ > Segmentation-based: 各⽂字を切り出して1⽂字ずつ当てに⾏く > Segmentation-free: ⼊⼒画像に対するラベル列を当てに⾏く - 深層学習の登場以降はこちらが主流 - ⾃然⾔語処理・⾳声認識 (ASR) などの系列認識問題と関わりが深い 問題設定

Slide 7

Slide 7 text

CNN+RNN の組み合わせで解く - CRNN [Shi+ 2017]: VGG16+BiLSTM+CTC - RARE [Shi+ 2016]: STN+VGG16+BiLSTM+Attention - ASTER [Shi+ 2019]: STN+ResNet+BiLSTM+Attention RNN 時代 (2015-2019) テキスト認識の流れ [Baek+ 2019]

Slide 8

Slide 8 text

テキスト認識にも Transformer [Vaswani+ 2017] が襲来 - NRTR [Sheng+ 2019]: 1D 特徴に Transformer を適⽤ - SATRN [Lee+ 2020]: 位置埋め込みを改良して 2D 認識に対応 - ViTSTR [Atienza 2021]: ViT [Dosovitskiy+ 2019]に⽂字出⼒⽤ヘッドを追加 Transformer 時代 (2019-2021) RNN系とSATRNの⽐較 ViTSTR の構造

Slide 9

Slide 9 text

Context-aware なテキスト認識を⽬指す Vision & Language 時代 (2020-) SRN [Yu+ 2020] ABINet [Fang+ 2021] VisionLAN [Wang+ 2021] MATRN [Na+ 2022] 詳しくは 👉

Slide 10

Slide 10 text

NineOCR: 名刺に特化した独⾃ OCR エンジン - Transformer 時代のモデルが稼働 > 複数⾏テキスト認識可能, モデルサイズが適度, ⼀般語彙に引っ張られない etc. - テキスト認識に関する論⽂投稿 > ViTSTR に⾃動補正機能を付与したモデルの提案 Sansan での取り組み 名刺データ化のコスト削減に貢献 Iterative ViTSTR [⽵⻑+ 2023]

Slide 11

Slide 11 text

モデル構造による性能向上は鈍化 性能の変遷 Vision & Language 時代 Transformer 時代 RNN 時代 テキスト認識は解決された問題なのか?

Slide 12

Slide 12 text

学習データ - フォントをレンダリングした⼈⼯データ > MJSynth [Jaderberg+ 2014], SynthText [Gupta+ 2016] - ⾃然画像からテキスト領域を切り出したデータ > COCO-Text [Veit+ 2016], Uber-Text [Zhang+ 2017] etc. > ku21fan/STR-Fewer-Labels [Baek+ 2021] 評価データ - clovaai/deep-text-recognition-benchmark [Baek+ 2019] > 著名なベンチマークデータセットを6つまとめたもの テキスト認識のデータセット

Slide 13

Slide 13 text

13個のベンチマークモデルをアンサンブル※ 評価データの分析 ※ 1つでも正しい⽂字列が出⼒できれば正解とする 誤り率は3.9% (298/7672) 伸び代は 1.53-2.91% 程度? エラー分析から知⾒を得るには、より多様なデータが必要そう

Slide 14

Slide 14 text

Union14M

Slide 15

Slide 15 text

実画像から切り出した14Mのテキストを含むデータセット Union14M Union14M の構成要素 Union14M のサンプル

Slide 16

Slide 16 text

Union14M のラベル付きサブセット (4M) - データセットの結合⽅法 > クロップ⽅法 - XY軸に沿ったポリゴンの外接矩形によってクロップ - 背景にノイズを導⼊するため正則化の効果あり > 重複サンプルの除去 - 共通の⼀般物体認識データセット (e.g., OpenImages) を利⽤している場合が多いため > ⾮ラテン⽂字の除去 - CH, KR, IN などを除去 - テキスト認識の教師あり学習に利⽤可能 Union14M-L

Slide 17

Slide 17 text

Union14M のラベルなしサブセット (10M) - 3つのテキスト検出器の推論値を投票して切り出し - ⾃⼰教師あり学習に利⽤可能 Union14M-U IoU voting の例

Slide 18

Slide 18 text

既存研究で議論されるチャレンジ - Curve > 湾曲しているテキスト - Multi-Oriented > Left-to-right 以外の読み順 - Artistic > ロゴデザイン等の芸術的なテキスト - Contextless > 数字やアルファベットの羅列 Union14M が内包するチャレンジ ①

Slide 19

Slide 19 text

既存研究であまり議論されないチャレンジ - Salient > 主題以外のテキストを含む - Multi-Words > 複数の単語を含む > ⼀般的なテキスト認識は 単語単位で性能を測る - Incomplete > 単語が途中で切れている > テキスト認識は本来字⾯を読むべき Union14M が内包するチャレンジ ②

Slide 20

Slide 20 text

チャレンジドリブンなテストセット - Challenge-specific subsets > Union14M-L から⼿動で各チャレンジに該当するサンプルを選択 > Incomplete は⼤半のベンチマークモデルが正しく読めるサンプルを選択 - ⾃動補正機能に関して調査するため - ランダムに最初/最後の⽂字を切り捨てる - General subset > チャレンジに該当しないサンプルも 多様な歪みを含む > Val / Benchmark で各0.4Mずつサンプリング Union14M-Benchmark Union14M-L の内訳

Slide 21

Slide 21 text

実験

Slide 22

Slide 22 text

学習設定 - 事前分析で利⽤した13個のモデルを⼈⼯データ・Union14Mで学習 > 全て論⽂記載のハイパーパラメータを利⽤ - 出⼒クラス数は91 (数字, ⼤⽂字/⼩⽂字, シンボル, スペース) 評価指標 - WA (Word Accuracy): 単語が完全⼀致している割合 - WAIC (WA Ignoring Case): ⼤⽂字/⼩⽂字を無視 - WAICS (WA Ignoring Case and Symbol): ⼤⽂字/⼩⽂字/シンボルを無視 - Incomplete サブセットに対しては、WA のドロップで評価 (lower is better) 実験設定

Slide 23

Slide 23 text

⼈⼯データでの学習

Slide 24

Slide 24 text

⼈⼯データでの学習 Union14M 上で性能ドロップが⼤きい → チャレンジングなデータといえる

Slide 25

Slide 25 text

⼈⼯データでの学習 LM を⽤いた⼿法で Incomplete のドロップが⼤きい → エラー修正機構が悪さをしていそう

Slide 26

Slide 26 text

Union14M-L での学習

Slide 27

Slide 27 text

Union14M-L での学習 平均 3.9% UP 平均 19.6% UP リアルデータでの訓練が効果的であるといえる

Slide 28

Slide 28 text

Union14M-L での学習 Union14M 上での最⾼性能は 74.6% → テキスト認識が解決済みとはいえなそう

Slide 29

Slide 29 text

MAERec - Union14M-U を⽤いて事前学習 (Masked Image Modeling) - 事前学習済みのエンコーダを⽤いて Transformer デコーダを Fine-tuning Union14M-U の活⽤⽅法

Slide 30

Slide 30 text

Masked Image Modeling による画像再構成結果

Slide 31

Slide 31 text

ベンチマークモデルとの⽐較 平均 1.0% UP 平均 5.1% UP

Slide 32

Slide 32 text

テキスト認識について - 問題設定 - モデル・データセットの研究動向 Union14M - 実画像から切り出した⼤規模データセット > Salient / Incomplete 等、従来にないチャレンジを含む - 実験を通してテキスト認識にまだ研究の余地があることを⽰した - MAERec (Masked Image Modeling + Fine-tuning) が SOTA 達成 まとめ

Slide 33

Slide 33 text

Sansan R&D TECH SHOWCASE -ビジネスをドライブするR&Dのウラガワ⼤公開- 11/10 (⾦) 19:00より、Sansanの研 究開発部メンバーが6つの発表を通 じて、プロダクトの進化のために どのように⾼速に仮説検証をすす め、リリースを実現しているのか をご紹介します。 告知 参加申し込みは connpassの Sansanページへ

Slide 34

Slide 34 text

[Jaderberg+ 2014] M. Jaderberg, K. Simonyan, A. Vedaldi, and A. Zisserman, “Synthetic data and artificial neural networks for natural scene text recognition,” arXiv [cs.CV], Jun. 09, 2014. [Online]. Available: http://arxiv.org/abs/1406.2227 [Gupta+ 2016] A. Gupta, A. Vedaldi, and A. Zisserman, “Synthetic Data for Text Localisation in Natural Images,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2016, pp. 2315–2324. [Shi+ 2016] B. Shi, X. Wang, P. Lyu, C. Yao, and X. Bai, “Robust Scene Text Recognition with Automatic Rectification,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2016, pp. 4168–4176. [Shi+ 2017] B. Shi, X. Bai, and C. Yao, “An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 11, pp. 2298–2304, Nov. 2017. [Shi+ 2019] B. Shi, M. Yang, X. Wang, P. Lyu, C. Yao, and X. Bai, “ASTER: An Attentional Scene Text Recognizer with Flexible Rectification,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 41, no. 9, pp. 2035–2048, Sep. 2019. [Sheng+ 2019] F. Sheng, Z. Chen, and B. Xu, “NRTR: A No-Recurrence Sequence-to-Sequence Model for Scene Text Recognition,” in 2019 International Conference on Document Analysis and Recognition (ICDAR), Sep. 2019, pp. 781–786. [Baek+ 2019] J. Baek et al., “What is wrong with scene text recognition model comparisons? Dataset and model analysis,” in 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE, Oct. 2019, pp. 4714–4722. [Yu+ 2020] D. Yu et al., “Towards Accurate Scene Text Recognition With Semantic Reasoning Networks,” in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2020, pp. 12110–12119. 参考⽂献

Slide 35

Slide 35 text

[Lee+ 2020] J. Lee, S. Park, J. Baek, S. J. Oh, S. Kim, and H. Lee, “On Recognizing Texts of Arbitrary Shapes with 2D Self- Attention,” in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), IEEE, Jun. 2020, pp. 2326–2335. [Fang+ 2021] S. Fang, H. Xie, Y. Wang, Z. Mao, and Y. Zhang, “Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 7098–7107. [Wang+ 2021] Y. Wang, H. Xie, S. Fang, J. Wang, S. Zhu, and Y. Zhang, “From two to one: A new scene text recognizer with visual language modeling network,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 14194– 14203. [Atienza 2021] R. Atienza, “Vision Transformer for Fast and Efficient Scene Text Recognition,” in Document Analysis and Recognition – ICDAR 2021, Springer International Publishing, 2021, pp. 319–334. [Na+ 2022] B. Na, Y. Kim, and S. Park, “Multi-modal Text Recognition Networks: Interactive Enhancements Between Visual and Semantic Features,” in Computer Vision – ECCV 2022, Springer Nature Switzerland, 2022, pp. 446–463. [Jiang+ 2023] Q. Jiang, J. Wang, D. Peng, C. Liu, and L. Jin, “Revisiting Scene Text Recognition: A Data Perspective,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 20543–20554. [⽵⻑+ 2023] ⽵永慎太朗, 内⽥奏, “確信度に基づいた⾃⼰修正機構を持つ⾼速な⽂字認識モデル,” in MIRU2023. 参考⽂献

Slide 36

Slide 36 text

No content