Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文字と超解像 / Recent Topics on Character Super-Resol...

Sansan DSOC
November 26, 2020

文字と超解像 / Recent Topics on Character Super-Resolution

■イベント 
:画像処理勉強会
https://sansan.connpass.com/event/195202/

■登壇概要
タイトル:文字と超解像
発表者: 
DSOC R&D研究員 内田 奏

▼Twitter
https://twitter.com/SansanRandD

Sansan DSOC

November 26, 2020
Tweet

More Decks by Sansan DSOC

Other Decks in Science

Transcript

  1. Data Strategy and Operation Center アジェンダ 1. 超解像 1-1. 問題設定

    1-2. 近年の研究動向 2. ⽂字と超解像 2-1. 既存研究・弊社での事例の紹介 3. 論⽂紹介: Scene Text Image Super-Resolution in the Wild 4. まとめ
  2. Data Strategy and Operation Center 超解像 (Super-Resolution; SR) ⼊⼒信号の解像度を⾼めて出⼒する技術 i.e.

    ⾼解像度化 • 画像以外にも⾳声,電波,センシングの分野でも登場 • ⾼周波成分の復元を指す場合もある 超解像画像(SR) 低解像度画像(LR)
  3. Data Strategy and Operation Center 問題設定 超解像は画像復元問題の⼀種 • 低解像度(LR)画像は⾼解像度(HR)画像が劣化して⽣成されると仮定 >

    劣化 := ⼊出⼒画像が同じ画像であると同定できる変換,またはその集合 • 劣化の逆変換ℱを求めることが⽬標 超解像(SR)画像 !" 低解像度(LR)画像 #" 復元 劣化 ⾼解像度(HR)画像 $" $" ℱ #"
  4. Data Strategy and Operation Center 何が難しい? 不良設定 • 1つの⼊⼒画像に対し,妥当な解が無数に存在 劣化は未知

    • 簡単のため劣化をBicubicダウンサンプルと仮定することが多い ①劣化 ②復元 同じ画像が ⽣成される どの画像に 復元すべきか? そもそも わからない
  5. Data Strategy and Operation Center CNNベースの超解像⼿法の流れ SRCNN VDSR FSRCNN ESPCN

    SRResNet EDSR RDN RCAN DBPN ESRGAN SAN 2014 2016 2017 2018 2019 2020 Fidelity Perception Flexibility Johnson et al. EnhanceNet SRGAN SRMD USRNet 劣 化 に Bicubic を 仮 定 劣化の種類・倍率等への 頑健性を向上 IKC MetaSR DPSR SR-RAW RealSR
  6. Data Strategy and Operation Center CNNベースの超解像⼿法の流れ SRCNN VDSR FSRCNN ESPCN

    SRResNet EDSR RDN RCAN DBPN ESRGAN SAN 2014 2016 2017 2018 2019 2020 Fidelity Perception Flexibility Johnson et al. EnhanceNet SRGAN USRNet 劣 化 に Bicubic を 仮 定 劣化の種類・倍率等への 頑健性を向上 IKC MetaSR DPSR SR-RAW RealSR SRMD
  7. Data Strategy and Operation Center 頑健性向上のアプローチ ⾼解像度画像 %& ∈ %&と同定できる低解像度画像空間

    !"#$% &' (#$" &' '()*+ ≈ ℱ'()*+ ,- (#$" &') 陽に書ける変換 陽に書けない変換 ⼀般的な超解像では簡単な劣化を仮定
  8. Data Strategy and Operation Center 頑健性向上のアプローチ ⾼解像度画像 %& ∈ %&と同定できる低解像度画像空間

    !"#$% &' (#$" &' '()*+ ≈ ℱ'()*+ ,- (#$" &') 劣化を合成して対応できる範囲を拡⼤ (SRMD etc.) ➡ 劣化を記述できるが範囲が狭い 陽に書ける変換 陽に書けない変換
  9. Data Strategy and Operation Center 頑健性向上のアプローチ ⾼解像度画像 %& ∈ %&と同定できる低解像度画像空間

    !"#$% &' (#$" &' '()*+ ≈ ℱ'()*+ ,- .)*( ≈ ℱ.)*( ,- (#$" &') 起こりうる劣化を実際に観測 (SR-RAW, RealSR) ➡ 範囲は広いが劣化はブラックボックス 陽に書ける変換 陽に書けない変換
  10. Data Strategy and Operation Center Real-paired Dataset を作るアプローチ ① SR-RAW

    [X. Zhang+ CVPR2019] • HR画像からLR画像を⽣成するのではなく, HR/LR画像を実際に観測 > カメラを固定して焦点距離を変化させながら画像を撮影 > 倍率の異なる各画像の同⼀領域をクロップ • 劣化 を近似する悪影響がなくなるため,⾼精度化が期待できる
  11. Data Strategy and Operation Center Real-paired Dataset を作るアプローチ ② RealSR

    [J. Cai+ ICCV2019] • NTIRE2019 Competition @CVPRW のデータセット > 倍率不明コンペ • SR-RAWに⽐べ,被写体が物理的に近い > 最⼤焦点距離が105mm (SR-RAWは240mm)
  12. Data Strategy and Operation Center ⽂字と超解像 前処理として超解像を導⼊すると⽂字認識精度は向上 • 深層学習時代以前から検証されている [C.

    Mancas-Thillou & M. Mirmehdi 2007] > 動画像からモーション推定やフィルタリングを駆使した⼿法 ICDAR 2015 Competition on Text Image Super-Resolution • 画質評価指標とOCR精度を競うコンペティション > OCR精度: Tesseractの認識結果の⽂字誤り率 (CER) = & (+,-,.) 0 (: 挿⼊回数, : 置換回数, : 削除回数, : ⽂字列⻑) • SRCNN [C. Dong+ ECCV2014] が優勝 > CNNベース超解像の先駆け https://projet.liris.cnrs.fr/sr2015/
  13. Data Strategy and Operation Center 弊社での取り組み 背景 • 海外進出時における悩み >

    発展途上国に普及しているデバイスは⽐較的廉価&カメラの解像度が低い > データ化⾃動化率低下への懸念 名刺超解像プロジェクト • CNNベース超解像を⽤いて⽂字認識精度向上を⽬指す • 得られる恩恵 > 完全⼀致率(Email): 46.26% → 79.01% > データ⼊⼒オペレータの視認性向上 実際の処理結果
  14. Data Strategy and Operation Center ⽂字に特化した超解像モデル TextSR [W. Wang+ 2019]

    • 超解像モデルの後段に⽂字認識モデルを配置 • 学習時に⽂字認識の誤差も逆伝播することで,⽂字認識に適した画像を⽣成 Generator⾃体は系列情報を捉えていない? ⽂字認識モデルが挿し代わる度に再学習が必要?
  15. Data Strategy and Operation Center 論⽂の概要 Scene Text Image Super-Resolution

    in the Wild [W. Wang+ ECCV2020] • ⽂字超解像に特化した TextZoom Dataset の提案 > ⽂字認識における最初の Real-paired Dataset • ⽂字超解像に適したモデル・学習⽅法の検討 > Real-paired Dataset における Misalignment への対策 > TextSRの⽋点を克服するネットワーク構造・誤差関数 TextZoom Dataset のサンプル
  16. Data Strategy and Operation Center TextZoom Dataset SR-RAW, RealSRからテキスト部分を抽出したデータセット EDAから得られる知⾒

    上記の知⾒から,倍率はx2,画像サイズは LR: (16, 64) / HR: (32, 128) と決定 • ⾼さが8-16pxならば16px,16-32pxならば32pxにアップサンプルしてデータ作成 > 範囲外のデータは捨てる 1. No patching: ⽂字列を途中でクロップすることは問題設定に適さない 2. Accuracy distribution: ⾼さ32px以上になると精度がサチる & 8px未満は読めない 3. Number: ⾼さ8-32pxの画像がマジョリティ 4. No down-sample: リアルなボケを利⽤するため,ダウンサンプルは厳禁
  17. Data Strategy and Operation Center Difficulty SR-RAWとRealSRではOCRの難易度に差がある • 近しい焦点距離 (SR-RAW:

    100m, RealSR: 105mm) でOCR精度を⽐較 > SR-RAW: 52.1% / RealSR: 75.0% > RealSRの⽅が被写体との距離が近く,認識が容易 Difficultyを定義 • easy: RealSRからサンプルされた画像 • middle: SR-RAWのうち焦点距離が50mm以上の画像 • hard: SR-RAWのうち焦点距離が50mmより⼩さいの画像 easy samples middle samples hard samples
  18. Data Strategy and Operation Center 提案モデル (Text Super-Resolution Network; TSRN)

    Generator内部で系列情報を認識 誤差関数に認識モデルを使わない L2 Loss + GP Loss(勾配画像のL1 Loss)
  19. Data Strategy and Operation Center Real-paired Dataset と Misalignment 厳密に撮影状況は固定できない

    • 同時撮影は原理上不可能であり,三脚を完全に固定することも不可能 焦点距離を変更すると Misalignment が発⽣ • SR-HRの位置合わせがどこかで必要 > SR-RAWだとContextual Bilateral Lossによって対処 Misalignment の種類 [X. Zhang+ CVPR2019]
  20. Data Strategy and Operation Center Central Alignment Module TextZoomでは,LR画像に⽐べてHR画像が中央寄せされる傾向にある •

    STN(Spatial Transformer Network) [B. Shi+ CVPR2016]を使って Alignment > Control-pointsをグリッド状に配置し,座標をパラメータとして学習 > Control-pointsが元のグリッドに戻るように薄板スプライン変換で変形 GIF animation from https://github.com/WarBean/tps_stn_pytorch STNによる位置合わせの例 Central Alignment Module による中央寄せ
  21. Data Strategy and Operation Center Synthetic LR vs TextZoom LR

    合成データと提案データで学習し,出⼒画像の⽂字認識精度を⽐較 • 合成データは TextZoom HR を縮⼩して学習ペアを作成 • ほぼ全てのモデル-認識器ペアで TextZoom LRが優位 +1.1-3.3% +3.4-6.0% +8.7-13.8%
  22. Data Strategy and Operation Center Ablation Study ネットワーク構造・align・GP Lossの有効性を確認 •

    SRResNet に⽐べ,系列情報を扱う SRBs が優位 • medium, hard において Central Alignment Module による改善幅が⼤きい +4.9% +1.6% +0.5%
  23. Data Strategy and Operation Center Central Alignment Module の有効性 エッジのボケ

    (double shadow) が改善 • Misalignment の発⽣しやすい middle, hard では特に有効と考えられる
  24. Data Strategy and Operation Center まとめ ⽂字と超解像 • 近年の超解像研究は頑健性を⾼める⽅向にある >

    Real-paired Dataset を⽤いるアプローチを紹介 • ⽂字超解像はマルチタスク・マルチモーダルな問題 > ドメインの特性に則った⼿法の選定が重要 e.g. モデル⾃⾝が系列情報を扱う etc. 論⽂紹介: Scene Text Image Super-Resolution in the Wild • ⽂字超解像における Real-paired Dataset を初めて提案 • 先⾏研究の課題を SRB, Central Alignment Module, GP Loss で解決 • Bicubicアップスケールと⽐べ,⽂字認識精度を10%以上向上
  25. Data Strategy and Operation Center 参考⽂献 • [X. Zhang+ CVPR2019]

    • X. Zhang, Q. Chen, R. Ng, and V. Koltun, “Zoom to learn, learn to zoom,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 3762–3770. • [J. Cai+ ICCV2019] • J. Cai, H. Zeng, H. Yong, Z. Cao, and L. Zhang, “Toward real-world single image super-resolution: A new benchmark and a new model,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 3086–3095. • [W. Wang+ 2019] • W. Wang et al., “TextSR: Content-Aware Text Super-Resolution Guided by Recognition,” arXiv [cs.CV], Sep. 16, 2019. • [W. Wang+ ECCV2020] • W. Wang et al., “Scene Text Image Super-Resolution in the Wild,” arXiv [cs.CV], May 07, 2020. • [B. Shi+ CVPR2016] • B. Shi, X. Wang, P. Lyu, C. Yao, and X. Bai, “Robust scene text recognition with automatic rectification,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 4168–4176.