Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution

Slide 1

Slide 1 text

Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution Sansan株式会社技術本部研究開発部 Automation Group 内⽥奏 2022/04/06 AAAI-22 論⽂読み会

Slide 2

Slide 2 text

⾃⼰紹介 2020/03：東京電機⼤学⼤学院⼯学研究科情報通信⼯学専攻修了局所特徴量を⽤いたトラッキング，Metric Learningを⽤いたファッション画像の特徴抽出，超解像・画像縮⼩を中⼼とした画像⽣成の研究に従事 2020/04：Sansan株式会社⼊社（インターンとしては2018/10より在籍）画像⽣成技術を応⽤した名刺画像補正や独⾃開発OCRに関する研究に従事内⽥奏 So Uchida s_aiueo32 S-aiueo32 Sansan株式会社技術本部研究開発部 Automation Group 研究員

Slide 3

Slide 3 text

字画を考慮した⽂字列超解像モデルの提案 - ⽂字列画像の解像度を上げて、⽂字認識精度を上げることが⽬的 - ⽂字の認識しやすさを字画ベースの認識器に基づいて学習概要

Slide 4

Slide 4 text

前処理として超解像を導⼊すると、⽂字認識精度は向上 - 深層学習時代以前から検証されている [Mancas-Thillou & Mirmehdi 2007] ICDAR 2015 Competition on Text Image Super-Resolution - SRCNN [Dong+ 2014] が優勝弊社での事例 - CNNベースの⼿法による名刺超解像 - 某ベンダーOCRによる⽐較 (n=10,000) > 完全⼀致率(Email): 43.91% → 75.65% ⽂字と超解像実際の処理結果

Slide 5

Slide 5 text

TextSR [Wang+ 2019] - 超解像モデルの後段に⽂字認識器を配置 - ⽂字認識器の誤差を逆伝播させることで、⽂字認識に適した画像を⽣成よくあるアプローチ ①

Slide 6

Slide 6 text

TSRN [Wang+ 2020] - 特徴を系列として扱う超解像モデル - 後段に⽂字認識器を配置しなくても良い性能を⽰すよくあるアプローチ ②

Slide 7

Slide 7 text

Scene Text Telescope [Chen+ 2021] - 出⼒⽂字に対しどこを参照したかはAttentionマップから確認可能 - HR-SR画像のAttentionマップを⽐較して、⽂字単位の読みやすさを学習先⾏研究

Slide 8

Slide 8 text

⽂字認識器を字画ベースに置き換える - PSM (Pixel-wise Supervision Module): 従来の超解像モデルと同じ - SFM (Stroke-Focused Module): 字画ベース認識器のAttentionマップを⽐較提案⼿法

Slide 9

Slide 9 text

学習するラベルを字画レベルに分解 - 中国語の場合 1. Horizontal : ベースラインと⽔平に引いた字画 2. Vertical : ベースラインと垂直に引いた字画 3. Left-falling : 左肩下がりの字画 4. Right-falling : 右肩下がりの字画 5. Turning : 折れ曲がっている字画字画ベース⽂字認識器の学習

Slide 10

Slide 10 text

学習するラベルを字画レベルに分解 - 英語の場合: 9種類の字画を定義字画ベース⽂字認識器の学習

Slide 11

Slide 11 text

誤差関数 𝐿 = 𝐿!"# + 𝜆"$# 𝐿"$# 𝐿!"# = 𝐈$% − 𝐈&% ' ' 𝐿"(# = 𝐀$% − 𝐀&% ) 𝜆"(# = 50 ! 実験ではを採⽤

Slide 12

Slide 12 text

データセット - 学習・評価⽤ > TextZoom [Wang+ 2020]: カメラ倍率を変更して収集した画像ペア > Degraded-IC13: ⼿書き漢字データ[Yin+ 2013]、ランダムでブラーを適⽤ - 評価⽤ > IC15-352: IC15 [Karatzas+ 2015] から解像度の低い画像を抽出したサブセット実験⼿順 1. SFMの事前学習 2. SFMの重みを固定してPSMを学習 3. 別の⽂字認識器による認識精度を算出実験⽅法

Slide 13

Slide 13 text

TextZoom に対して、複数の⽂字認識器 × バックボーンで評価 - 字画ベース認識器が平均的に性能が良いことを確認 - TextZoom のサブセット間⽐較・どのバックボーンに有効かの考察は無い定量評価 ASTER [Shi+ 2018] での⽂字認識精度 (Average) の⽐較

Slide 14

Slide 14 text

定性評価

Slide 15

Slide 15 text

Attentionドリフトは問題にならないか? - Attention ドリフト > ⻑い系列に対し Attention 重みが⾊々な場所に散る現象 - ⽂字ベース認識器に⽐べて、字画ベース認識器のラベルは⻑い > 5.0 (⽂字ベース) → 10.9 (字画ベース) - 学習に⽤いるマップを変えて Attention ドリフトの影響を考える 1. 全てのマップを利⽤ : 48.9% 2. 正しく推論したマップのみ利⽤ : 48.5% 3. 誤って推論したマップのみ利⽤ : 39.8% ディスカッション ① 正しい字画の情報は重要だが、多少のノイズに対しては頑健

Slide 16

Slide 16 text

前処理としての超解像は、学習の⼯夫で置き換え可能か? - 低品質な画像における⽂字認識は多く研究されている > 実は認識器側で頑張る⽅がいいのでは? - 評価時⽤の⽂字認識器を⼯夫して、性能が上がるか確認ディスカッション ② 合成データで学習ランダムブラーで⽔増し TextZoomを学習データに加える TextZoomのみでFine-tuning 前処理として超解像モデルを利⽤学習を⼯夫したモデルに対しても、前処理としての超解像は有効

Slide 17

Slide 17 text

Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution - 出⼒画像に対して、字画ベース⽂字認識器の結果が⼀致するよう制約をかける - ⽂字ベースの⽂字認識器に⽐べて性能向上を確認疑問点 - ゲシュタルト⼼理学の話は必要か - 部分的に⽂字ベースに負けている - なぜ⼿書き漢字認識は1⽂字単位なのか - 英語はフォントにかなり影響されそうまとめ

Slide 18

Slide 18 text

[Mancas-Thillou & Mirmehdi 2007] C. Mancas-Thillou and M. Mirmehdi, “An Introduction to Super-Resolution Text,” in Digital Document Processing: Major Directions and Recent Advances, B. B. Chaudhuri, Ed. London: Springer London, 2007, pp. 305–327. [Yin+ 2013] F. Yin, Q.-F. Wang, X.-Y. Zhang, and C.-L. Liu, “ICDAR 2013 Chinese Handwriting Recognition Competition,” in 2013 12th International Conference on Document Analysis and Recognition, Aug. 2013, pp. 1464–1470. [Dong+ 2014] C. Dong, C. C. Loy, K. He, and X. Tang, “Image Super-Resolution Using Deep Convolutional Networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 38, no. 2, pp. 295–307, Feb. 2016. [Karatzas+ 2015] D. Karatzas et al., “ICDAR 2015 competition on Robust Reading,” in 2015 13th International Conference on Document Analysis and Recognition (ICDAR), Aug. 2015, pp. 1156–1160. 参考⽂献

Slide 19

Slide 19 text

[Wang+ 2019] W. Wang et al., “TextSR: Content-Aware Text Super-Resolution Guided by Recognition,” arXiv [cs.CV], Sep. 16, 2019. [Online]. Available: http://arxiv.org/abs/1909.07113. [Wang+ 2020] W. Wang et al., “Scene Text Image Super-Resolution in the Wild,” arXiv [cs.CV], May 07, 2020. [Online]. Available: http://arxiv.org/abs/2005.03341. [Chen+ 2021] J. Chen, B. Li, and X. Xue, “Scene text telescope: Text-focused scene image super-resolution,” in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, Jun. 2021, pp. 12026– 12035. 紹介論⽂ J. Chen, H. Yu, J. Ma, B. Li, and X. Xue, “Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution,” arXiv [cs.CV], Dec. 13, 2021. [Online]. Available: http://arxiv.org/abs/2112.08171 参考⽂献