Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Text Gestalt: Stroke-Aware Scene Text Image Sup...

Sansan R&D
April 06, 2022

Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution

■イベント:AAAI-22 論文読み会
https://line.connpass.com/event/242058/

■登壇概要
タイトル:Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution
発表者: 

技術本部 研究開発部 研究員 内田 奏

■ R&Dの採用情報
https://media.sansan-engineering.com/randd

Sansan R&D

April 06, 2022
Tweet

More Decks by Sansan R&D

Other Decks in Science

Transcript

  1. ⾃⼰紹介 2020/03: 東京電機⼤学⼤学院 ⼯学研究科 情報通信⼯学専攻 修了 局所特徴量を⽤いたトラッキング,Metric Learningを⽤いたファッション 画像の特徴抽出,超解像・画像縮⼩を中⼼とした画像⽣成の研究に従事 2020/04:Sansan株式会社

    ⼊社(インターンとしては2018/10より在籍) 画像⽣成技術を応⽤した名刺画像補正や独⾃開発OCRに関する研究に従事 内⽥ 奏 So Uchida s_aiueo32 S-aiueo32 Sansan株式会社 技術本部 研究開発部 Automation Group 研究員
  2. 前処理として超解像を導⼊すると、⽂字認識精度は向上 - 深層学習時代以前から検証されている [Mancas-Thillou & Mirmehdi 2007] ICDAR 2015 Competition

    on Text Image Super-Resolution - SRCNN [Dong+ 2014] が優勝 弊社での事例 - CNNベースの⼿法による名刺超解像 - 某ベンダーOCRによる⽐較 (n=10,000) > 完全⼀致率(Email): 43.91% → 75.65% ⽂字と超解像 実際の処理結果
  3. 学習するラベルを字画レベルに分解 - 中国語の場合 1. Horizontal : ベースラインと⽔平に引いた字画 2. Vertical :

    ベースラインと垂直に引いた字画 3. Left-falling : 左肩下がりの字画 4. Right-falling : 右肩下がりの字画 5. Turning : 折れ曲がっている字画 字画ベース⽂字認識器の学習
  4. 誤差関数 𝐿 = 𝐿!"# + 𝜆"$# 𝐿"$# 𝐿!"# = 𝐈$%

    − 𝐈&% ' ' 𝐿"(# = 𝐀$% − 𝐀&% ) 𝜆"(# = 50 ! 実験では を採⽤
  5. データセット - 学習・評価⽤ > TextZoom [Wang+ 2020]: カメラ倍率を変更して収集した画像ペア > Degraded-IC13:

    ⼿書き漢字データ[Yin+ 2013]、 ランダムでブラーを適⽤ - 評価⽤ > IC15-352: IC15 [Karatzas+ 2015] から解像度の低い画像を抽出したサブセット 実験⼿順 1. SFMの事前学習 2. SFMの重みを固定してPSMを学習 3. 別の⽂字認識器による認識精度を算出 実験⽅法
  6. Attentionドリフトは問題にならないか? - Attention ドリフト > ⻑い系列に対し Attention 重みが⾊々な場所に散る現象 - ⽂字ベース認識器に⽐べて、字画ベース認識器のラベルは⻑い

    > 5.0 (⽂字ベース) → 10.9 (字画ベース) - 学習に⽤いるマップを変えて Attention ドリフトの影響を考える 1. 全てのマップを利⽤ : 48.9% 2. 正しく推論したマップのみ利⽤ : 48.5% 3. 誤って推論したマップのみ利⽤ : 39.8% ディスカッション ① 正しい字画の情報は重要だが、多少のノイズに対しては頑健
  7. 前処理としての超解像は、学習の⼯夫で置き換え可能か? - 低品質な画像における⽂字認識は多く研究されている > 実は認識器側で頑張る⽅がいいのでは? - 評価時⽤の⽂字認識器を⼯夫して、性能が上がるか確認 ディスカッション ② 合成データで学習

    ランダムブラーで⽔増し TextZoomを学習データに加える TextZoomのみでFine-tuning 前処理として超解像モデルを利⽤ 学習を⼯夫したモデルに対しても、前処理としての超解像は有効
  8. Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution - 出⼒画像に対して、字画ベース⽂字認識器の結果が⼀致するよう制約をかける -

    ⽂字ベースの⽂字認識器に⽐べて性能向上を確認 疑問点 - ゲシュタルト⼼理学の話は必要か - 部分的に⽂字ベースに負けている - なぜ⼿書き漢字認識は1⽂字単位なのか - 英語はフォントにかなり影響されそう まとめ
  9. [Mancas-Thillou & Mirmehdi 2007] C. Mancas-Thillou and M. Mirmehdi, “An

    Introduction to Super-Resolution Text,” in Digital Document Processing: Major Directions and Recent Advances, B. B. Chaudhuri, Ed. London: Springer London, 2007, pp. 305–327. [Yin+ 2013] F. Yin, Q.-F. Wang, X.-Y. Zhang, and C.-L. Liu, “ICDAR 2013 Chinese Handwriting Recognition Competition,” in 2013 12th International Conference on Document Analysis and Recognition, Aug. 2013, pp. 1464–1470. [Dong+ 2014] C. Dong, C. C. Loy, K. He, and X. Tang, “Image Super-Resolution Using Deep Convolutional Networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 38, no. 2, pp. 295–307, Feb. 2016. [Karatzas+ 2015] D. Karatzas et al., “ICDAR 2015 competition on Robust Reading,” in 2015 13th International Conference on Document Analysis and Recognition (ICDAR), Aug. 2015, pp. 1156–1160. 参考⽂献
  10. [Wang+ 2019] W. Wang et al., “TextSR: Content-Aware Text Super-Resolution

    Guided by Recognition,” arXiv [cs.CV], Sep. 16, 2019. [Online]. Available: http://arxiv.org/abs/1909.07113. [Wang+ 2020] W. Wang et al., “Scene Text Image Super-Resolution in the Wild,” arXiv [cs.CV], May 07, 2020. [Online]. Available: http://arxiv.org/abs/2005.03341. [Chen+ 2021] J. Chen, B. Li, and X. Xue, “Scene text telescope: Text-focused scene image super-resolution,” in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, Jun. 2021, pp. 12026– 12035. 紹介論⽂ J. Chen, H. Yu, J. Ma, B. Li, and X. Xue, “Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution,” arXiv [cs.CV], Dec. 13, 2021. [Online]. Available: http://arxiv.org/abs/2112.08171 参考⽂献