Slide 1

Slide 1 text

Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution Sansan株式会社 技術本部 研究開発部 Automation Group 内⽥ 奏 2022/04/06 AAAI-22 論⽂読み会

Slide 2

Slide 2 text

⾃⼰紹介 2020/03: 東京電機⼤学⼤学院 ⼯学研究科 情報通信⼯学専攻 修了 局所特徴量を⽤いたトラッキング,Metric Learningを⽤いたファッション 画像の特徴抽出,超解像・画像縮⼩を中⼼とした画像⽣成の研究に従事 2020/04:Sansan株式会社 ⼊社(インターンとしては2018/10より在籍) 画像⽣成技術を応⽤した名刺画像補正や独⾃開発OCRに関する研究に従事 内⽥ 奏 So Uchida s_aiueo32 S-aiueo32 Sansan株式会社 技術本部 研究開発部 Automation Group 研究員

Slide 3

Slide 3 text

字画を考慮した⽂字列超解像モデルの提案 - ⽂字列画像の解像度を上げて、⽂字認識精度を上げることが⽬的 - ⽂字の認識しやすさを字画ベースの認識器に基づいて学習 概要

Slide 4

Slide 4 text

前処理として超解像を導⼊すると、⽂字認識精度は向上 - 深層学習時代以前から検証されている [Mancas-Thillou & Mirmehdi 2007] ICDAR 2015 Competition on Text Image Super-Resolution - SRCNN [Dong+ 2014] が優勝 弊社での事例 - CNNベースの⼿法による名刺超解像 - 某ベンダーOCRによる⽐較 (n=10,000) > 完全⼀致率(Email): 43.91% → 75.65% ⽂字と超解像 実際の処理結果

Slide 5

Slide 5 text

TextSR [Wang+ 2019] - 超解像モデルの後段に⽂字認識器を配置 - ⽂字認識器の誤差を逆伝播させることで、⽂字認識に適した画像を⽣成 よくあるアプローチ ①

Slide 6

Slide 6 text

TSRN [Wang+ 2020] - 特徴を系列として扱う超解像モデル - 後段に⽂字認識器を配置しなくても良い性能を⽰す よくあるアプローチ ②

Slide 7

Slide 7 text

Scene Text Telescope [Chen+ 2021] - 出⼒⽂字に対しどこを参照したかはAttentionマップから確認可能 - HR-SR画像のAttentionマップを⽐較して、⽂字単位の読みやすさを学習 先⾏研究

Slide 8

Slide 8 text

⽂字認識器を字画ベースに置き換える - PSM (Pixel-wise Supervision Module): 従来の超解像モデルと同じ - SFM (Stroke-Focused Module): 字画ベース認識器のAttentionマップを⽐較 提案⼿法

Slide 9

Slide 9 text

学習するラベルを字画レベルに分解 - 中国語の場合 1. Horizontal : ベースラインと⽔平に引いた字画 2. Vertical : ベースラインと垂直に引いた字画 3. Left-falling : 左肩下がりの字画 4. Right-falling : 右肩下がりの字画 5. Turning : 折れ曲がっている字画 字画ベース⽂字認識器の学習

Slide 10

Slide 10 text

学習するラベルを字画レベルに分解 - 英語の場合: 9種類の字画を定義 字画ベース⽂字認識器の学習

Slide 11

Slide 11 text

誤差関数 𝐿 = 𝐿!"# + 𝜆"$# 𝐿"$# 𝐿!"# = 𝐈$% − 𝐈&% ' ' 𝐿"(# = 𝐀$% − 𝐀&% ) 𝜆"(# = 50 ! 実験では を採⽤

Slide 12

Slide 12 text

データセット - 学習・評価⽤ > TextZoom [Wang+ 2020]: カメラ倍率を変更して収集した画像ペア > Degraded-IC13: ⼿書き漢字データ[Yin+ 2013]、 ランダムでブラーを適⽤ - 評価⽤ > IC15-352: IC15 [Karatzas+ 2015] から解像度の低い画像を抽出したサブセット 実験⼿順 1. SFMの事前学習 2. SFMの重みを固定してPSMを学習 3. 別の⽂字認識器による認識精度を算出 実験⽅法

Slide 13

Slide 13 text

TextZoom に対して、複数の⽂字認識器 × バックボーンで評価 - 字画ベース認識器が平均的に性能が良いことを確認 - TextZoom のサブセット間⽐較・どのバックボーンに有効かの考察は無い 定量評価 ASTER [Shi+ 2018] での⽂字認識精度 (Average) の⽐較

Slide 14

Slide 14 text

定性評価

Slide 15

Slide 15 text

Attentionドリフトは問題にならないか? - Attention ドリフト > ⻑い系列に対し Attention 重みが⾊々な場所に散る現象 - ⽂字ベース認識器に⽐べて、字画ベース認識器のラベルは⻑い > 5.0 (⽂字ベース) → 10.9 (字画ベース) - 学習に⽤いるマップを変えて Attention ドリフトの影響を考える 1. 全てのマップを利⽤ : 48.9% 2. 正しく推論したマップのみ利⽤ : 48.5% 3. 誤って推論したマップのみ利⽤ : 39.8% ディスカッション ① 正しい字画の情報は重要だが、多少のノイズに対しては頑健

Slide 16

Slide 16 text

前処理としての超解像は、学習の⼯夫で置き換え可能か? - 低品質な画像における⽂字認識は多く研究されている > 実は認識器側で頑張る⽅がいいのでは? - 評価時⽤の⽂字認識器を⼯夫して、性能が上がるか確認 ディスカッション ② 合成データで学習 ランダムブラーで⽔増し TextZoomを学習データに加える TextZoomのみでFine-tuning 前処理として超解像モデルを利⽤ 学習を⼯夫したモデルに対しても、前処理としての超解像は有効

Slide 17

Slide 17 text

Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution - 出⼒画像に対して、字画ベース⽂字認識器の結果が⼀致するよう制約をかける - ⽂字ベースの⽂字認識器に⽐べて性能向上を確認 疑問点 - ゲシュタルト⼼理学の話は必要か - 部分的に⽂字ベースに負けている - なぜ⼿書き漢字認識は1⽂字単位なのか - 英語はフォントにかなり影響されそう まとめ

Slide 18

Slide 18 text

[Mancas-Thillou & Mirmehdi 2007] C. Mancas-Thillou and M. Mirmehdi, “An Introduction to Super-Resolution Text,” in Digital Document Processing: Major Directions and Recent Advances, B. B. Chaudhuri, Ed. London: Springer London, 2007, pp. 305–327. [Yin+ 2013] F. Yin, Q.-F. Wang, X.-Y. Zhang, and C.-L. Liu, “ICDAR 2013 Chinese Handwriting Recognition Competition,” in 2013 12th International Conference on Document Analysis and Recognition, Aug. 2013, pp. 1464–1470. [Dong+ 2014] C. Dong, C. C. Loy, K. He, and X. Tang, “Image Super-Resolution Using Deep Convolutional Networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 38, no. 2, pp. 295–307, Feb. 2016. [Karatzas+ 2015] D. Karatzas et al., “ICDAR 2015 competition on Robust Reading,” in 2015 13th International Conference on Document Analysis and Recognition (ICDAR), Aug. 2015, pp. 1156–1160. 参考⽂献

Slide 19

Slide 19 text

[Wang+ 2019] W. Wang et al., “TextSR: Content-Aware Text Super-Resolution Guided by Recognition,” arXiv [cs.CV], Sep. 16, 2019. [Online]. Available: http://arxiv.org/abs/1909.07113. [Wang+ 2020] W. Wang et al., “Scene Text Image Super-Resolution in the Wild,” arXiv [cs.CV], May 07, 2020. [Online]. Available: http://arxiv.org/abs/2005.03341. [Chen+ 2021] J. Chen, B. Li, and X. Xue, “Scene text telescope: Text-focused scene image super-resolution,” in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, Jun. 2021, pp. 12026– 12035. 紹介論⽂ J. Chen, H. Yu, J. Ma, B. Li, and X. Xue, “Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution,” arXiv [cs.CV], Dec. 13, 2021. [Online]. Available: http://arxiv.org/abs/2112.08171 参考⽂献