文字と超解像 / Recent Topics on Character Super-Resolution

⽂字と超解像 Sansan株式会社 DSOC R&D研究員内⽥奏「画像処理勉強会」@2020/11/26

Data Strategy and Operation Center アジェンダ 1. 超解像 1-1. 問題設定
1-2. 近年の研究動向 2. ⽂字と超解像 2-1. 既存研究・弊社での事例の紹介 3. 論⽂紹介: Scene Text Image Super-Resolution in the Wild 4. まとめ

超解像

Data Strategy and Operation Center 超解像 (Super-Resolution; SR) ⼊⼒信号の解像度を⾼めて出⼒する技術 i.e.
⾼解像度化 • 画像以外にも⾳声，電波，センシングの分野でも登場 • ⾼周波成分の復元を指す場合もある超解像画像(SR) 低解像度画像(LR)

Data Strategy and Operation Center 問題設定超解像は画像復元問題の⼀種 • 低解像度(LR)画像は⾼解像度(HR)画像が劣化して⽣成されると仮定 >
劣化 := ⼊出⼒画像が同じ画像であると同定できる変換，またはその集合 • 劣化の逆変換ℱを求めることが⽬標超解像(SR)画像 !" 低解像度(LR)画像 #" 復元劣化⾼解像度(HR)画像 $" $" ℱ #"

Data Strategy and Operation Center 何が難しい？不良設定 • 1つの⼊⼒画像に対し，妥当な解が無数に存在劣化は未知
• 簡単のため劣化をBicubicダウンサンプルと仮定することが多い ①劣化 ②復元同じ画像が⽣成されるどの画像に復元すべきか? そもそもわからない

Data Strategy and Operation Center CNNベースの超解像⼿法の流れ SRCNN VDSR FSRCNN ESPCN
SRResNet EDSR RDN RCAN DBPN ESRGAN SAN 2014 2016 2017 2018 2019 2020 Fidelity Perception Flexibility Johnson et al. EnhanceNet SRGAN SRMD USRNet 劣化に Bicubic を仮定劣化の種類・倍率等への頑健性を向上 IKC MetaSR DPSR SR-RAW RealSR

Data Strategy and Operation Center CNNベースの超解像⼿法の流れ SRCNN VDSR FSRCNN ESPCN
SRResNet EDSR RDN RCAN DBPN ESRGAN SAN 2014 2016 2017 2018 2019 2020 Fidelity Perception Flexibility Johnson et al. EnhanceNet SRGAN USRNet 劣化に Bicubic を仮定劣化の種類・倍率等への頑健性を向上 IKC MetaSR DPSR SR-RAW RealSR SRMD

Data Strategy and Operation Center 頑健性向上のアプローチ⾼解像度画像 %& ∈ %&と同定できる低解像度画像空間
!"#$% &' (#$" &' '()*+ ≈ ℱ'()*+ ,- (#$" &') 陽に書ける変換陽に書けない変換⼀般的な超解像では簡単な劣化を仮定

!"#$% &' (#$" &' '()*+ ≈ ℱ'()*+ ,- (#$" &') 劣化を合成して対応できる範囲を拡⼤ (SRMD etc.) ➡ 劣化を記述できるが範囲が狭い陽に書ける変換陽に書けない変換

!"#$% &' (#$" &' '()*+ ≈ ℱ'()*+ ,- .)*( ≈ ℱ.)*( ,- (#$" &') 起こりうる劣化を実際に観測 (SR-RAW, RealSR) ➡ 範囲は広いが劣化はブラックボックス陽に書ける変換陽に書けない変換

Data Strategy and Operation Center Real-paired Dataset を作るアプローチ ① SR-RAW
[X. Zhang+ CVPR2019] • HR画像からLR画像を⽣成するのではなく， HR/LR画像を実際に観測 > カメラを固定して焦点距離を変化させながら画像を撮影 > 倍率の異なる各画像の同⼀領域をクロップ • 劣化を近似する悪影響がなくなるため，⾼精度化が期待できる

Data Strategy and Operation Center Real-paired Dataset を作るアプローチ ② RealSR
[J. Cai+ ICCV2019] • NTIRE2019 Competition @CVPRW のデータセット > 倍率不明コンペ • SR-RAWに⽐べ，被写体が物理的に近い > 最⼤焦点距離が105mm (SR-RAWは240mm)

⽂字と超解像

Data Strategy and Operation Center ⽂字と超解像前処理として超解像を導⼊すると⽂字認識精度は向上 • 深層学習時代以前から検証されている [C.
Mancas-Thillou & M. Mirmehdi 2007] > 動画像からモーション推定やフィルタリングを駆使した⼿法 ICDAR 2015 Competition on Text Image Super-Resolution • 画質評価指標とOCR精度を競うコンペティション > OCR精度: Tesseractの認識結果の⽂字誤り率 (CER) = & (+,-,.) 0 (: 挿⼊回数, : 置換回数, : 削除回数, : ⽂字列⻑) • SRCNN [C. Dong+ ECCV2014] が優勝 > CNNベース超解像の先駆け https://projet.liris.cnrs.fr/sr2015/

Data Strategy and Operation Center 弊社での取り組み背景 • 海外進出時における悩み >
発展途上国に普及しているデバイスは⽐較的廉価&カメラの解像度が低い > データ化⾃動化率低下への懸念名刺超解像プロジェクト • CNNベース超解像を⽤いて⽂字認識精度向上を⽬指す • 得られる恩恵 > 完全⼀致率(Email): 46.26% → 79.01% > データ⼊⼒オペレータの視認性向上実際の処理結果

Data Strategy and Operation Center ⽂字に特化した超解像モデル TextSR [W. Wang+ 2019]
• 超解像モデルの後段に⽂字認識モデルを配置 • 学習時に⽂字認識の誤差も逆伝播することで，⽂字認識に適した画像を⽣成 Generator⾃体は系列情報を捉えていない? ⽂字認識モデルが挿し代わる度に再学習が必要?

論⽂紹介

Data Strategy and Operation Center 論⽂の概要 Scene Text Image Super-Resolution
in the Wild [W. Wang+ ECCV2020] • ⽂字超解像に特化した TextZoom Dataset の提案 > ⽂字認識における最初の Real-paired Dataset • ⽂字超解像に適したモデル・学習⽅法の検討 > Real-paired Dataset における Misalignment への対策 > TextSRの⽋点を克服するネットワーク構造・誤差関数 TextZoom Dataset のサンプル

TextZoom Dataset

Data Strategy and Operation Center TextZoom Dataset SR-RAW, RealSRからテキスト部分を抽出したデータセット EDAから得られる知⾒
上記の知⾒から，倍率はx2，画像サイズは LR: (16, 64) / HR: (32, 128) と決定 • ⾼さが8-16pxならば16px，16-32pxならば32pxにアップサンプルしてデータ作成 > 範囲外のデータは捨てる 1. No patching: ⽂字列を途中でクロップすることは問題設定に適さない 2. Accuracy distribution: ⾼さ32px以上になると精度がサチる & 8px未満は読めない 3. Number: ⾼さ8-32pxの画像がマジョリティ 4. No down-sample: リアルなボケを利⽤するため，ダウンサンプルは厳禁

Data Strategy and Operation Center Difficulty SR-RAWとRealSRではOCRの難易度に差がある • 近しい焦点距離 (SR-RAW:
100m, RealSR: 105mm) でOCR精度を⽐較 > SR-RAW: 52.1% / RealSR: 75.0% > RealSRの⽅が被写体との距離が近く，認識が容易 Difficultyを定義 • easy: RealSRからサンプルされた画像 • middle: SR-RAWのうち焦点距離が50mm以上の画像 • hard: SR-RAWのうち焦点距離が50mmより⼩さいの画像 easy samples middle samples hard samples

提案モデル

Data Strategy and Operation Center 提案モデル (Text Super-Resolution Network; TSRN)

Generator内部で系列情報を認識誤差関数に認識モデルを使わない L2 Loss + GP Loss(勾配画像のL1 Loss)

Data Strategy and Operation Center Real-paired Dataset と Misalignment 厳密に撮影状況は固定できない
• 同時撮影は原理上不可能であり，三脚を完全に固定することも不可能焦点距離を変更すると Misalignment が発⽣ • SR-HRの位置合わせがどこかで必要 > SR-RAWだとContextual Bilateral Lossによって対処 Misalignment の種類 [X. Zhang+ CVPR2019]

ここで Misalignment に対処

Data Strategy and Operation Center Central Alignment Module TextZoomでは，LR画像に⽐べてHR画像が中央寄せされる傾向にある •
STN(Spatial Transformer Network) [B. Shi+ CVPR2016]を使って Alignment > Control-pointsをグリッド状に配置し，座標をパラメータとして学習 > Control-pointsが元のグリッドに戻るように薄板スプライン変換で変形 GIF animation from https://github.com/WarBean/tps_stn_pytorch STNによる位置合わせの例 Central Alignment Module による中央寄せ

実験

Data Strategy and Operation Center Synthetic LR vs TextZoom LR
合成データと提案データで学習し，出⼒画像の⽂字認識精度を⽐較 • 合成データは TextZoom HR を縮⼩して学習ペアを作成 • ほぼ全てのモデル-認識器ペアで TextZoom LRが優位 +1.1-3.3% +3.4-6.0% +8.7-13.8%

Data Strategy and Operation Center Ablation Study ネットワーク構造・align・GP Lossの有効性を確認 •
SRResNet に⽐べ，系列情報を扱う SRBs が優位 • medium, hard において Central Alignment Module による改善幅が⼤きい +4.9% +1.6% +0.5%

Data Strategy and Operation Center Central Alignment Module の有効性エッジのボケ
(double shadow) が改善 • Misalignment の発⽣しやすい middle, hard では特に有効と考えられる

Data Strategy and Operation Center SOTAモデルとの⽐較 ZoomText で学習した SOTAモデルと⽐較 TSRNが最⾼精度
& Bicubicから10%以上改善

Data Strategy and Operation Center 視覚的な⽐較⽂字認識精度だけではなく，視覚的にも提案モデルが良好

Data Strategy and Operation Center まとめ⽂字と超解像 • 近年の超解像研究は頑健性を⾼める⽅向にある >
Real-paired Dataset を⽤いるアプローチを紹介 • ⽂字超解像はマルチタスク・マルチモーダルな問題 > ドメインの特性に則った⼿法の選定が重要 e.g. モデル⾃⾝が系列情報を扱う etc. 論⽂紹介: Scene Text Image Super-Resolution in the Wild • ⽂字超解像における Real-paired Dataset を初めて提案 • 先⾏研究の課題を SRB, Central Alignment Module, GP Loss で解決 • Bicubicアップスケールと⽐べ，⽂字認識精度を10%以上向上

Data Strategy and Operation Center 参考⽂献 • [X. Zhang+ CVPR2019]
• X. Zhang, Q. Chen, R. Ng, and V. Koltun, “Zoom to learn, learn to zoom,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 3762–3770. • [J. Cai+ ICCV2019] • J. Cai, H. Zeng, H. Yong, Z. Cao, and L. Zhang, “Toward real-world single image super-resolution: A new benchmark and a new model,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 3086–3095. • [W. Wang+ 2019] • W. Wang et al., “TextSR: Content-Aware Text Super-Resolution Guided by Recognition,” arXiv [cs.CV], Sep. 16, 2019. • [W. Wang+ ECCV2020] • W. Wang et al., “Scene Text Image Super-Resolution in the Wild,” arXiv [cs.CV], May 07, 2020. • [B. Shi+ CVPR2016] • B. Shi, X. Wang, P. Lyu, C. Yao, and X. Bai, “Robust scene text recognition with automatic rectification,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 4168–4176.

文字と超解像 / Recent Topics on Character Super-Resol...

文字と超解像 / Recent Topics on Character Super-Resolution

More Decks by Sansan DSOC

Other Decks in Science

Featured

Transcript