Slide 1

Slide 1 text

⽂字と超解像 Sansan株式会社 DSOC R&D研究員 内⽥ 奏 「画像処理 勉強会」@2020/11/26

Slide 2

Slide 2 text

Data Strategy and Operation Center アジェンダ 1. 超解像 1-1. 問題設定 1-2. 近年の研究動向 2. ⽂字と超解像 2-1. 既存研究・弊社での事例の紹介 3. 論⽂紹介: Scene Text Image Super-Resolution in the Wild 4. まとめ

Slide 3

Slide 3 text

超解像

Slide 4

Slide 4 text

Data Strategy and Operation Center 超解像 (Super-Resolution; SR) ⼊⼒信号の解像度を⾼めて出⼒する技術 i.e. ⾼解像度化 • 画像以外にも⾳声,電波,センシングの分野でも登場 • ⾼周波成分の復元を指す場合もある 超解像画像(SR) 低解像度画像(LR)

Slide 5

Slide 5 text

Data Strategy and Operation Center 問題設定 超解像は画像復元問題の⼀種 • 低解像度(LR)画像は⾼解像度(HR)画像が劣化して⽣成されると仮定 > 劣化 := ⼊出⼒画像が同じ画像であると同定できる変換,またはその集合 • 劣化の逆変換ℱを求めることが⽬標 超解像(SR)画像 !" 低解像度(LR)画像 #" 復元 劣化 ⾼解像度(HR)画像 $" $" ℱ #"

Slide 6

Slide 6 text

Data Strategy and Operation Center 何が難しい? 不良設定 • 1つの⼊⼒画像に対し,妥当な解が無数に存在 劣化は未知 • 簡単のため劣化をBicubicダウンサンプルと仮定することが多い ①劣化 ②復元 同じ画像が ⽣成される どの画像に 復元すべきか? そもそも わからない

Slide 7

Slide 7 text

Data Strategy and Operation Center CNNベースの超解像⼿法の流れ SRCNN VDSR FSRCNN ESPCN SRResNet EDSR RDN RCAN DBPN ESRGAN SAN 2014 2016 2017 2018 2019 2020 Fidelity Perception Flexibility Johnson et al. EnhanceNet SRGAN SRMD USRNet 劣 化 に Bicubic を 仮 定 劣化の種類・倍率等への 頑健性を向上 IKC MetaSR DPSR SR-RAW RealSR

Slide 8

Slide 8 text

Data Strategy and Operation Center CNNベースの超解像⼿法の流れ SRCNN VDSR FSRCNN ESPCN SRResNet EDSR RDN RCAN DBPN ESRGAN SAN 2014 2016 2017 2018 2019 2020 Fidelity Perception Flexibility Johnson et al. EnhanceNet SRGAN USRNet 劣 化 に Bicubic を 仮 定 劣化の種類・倍率等への 頑健性を向上 IKC MetaSR DPSR SR-RAW RealSR SRMD

Slide 9

Slide 9 text

Data Strategy and Operation Center 頑健性向上のアプローチ ⾼解像度画像 %& ∈ %&と同定できる低解像度画像空間 !"#$% &' (#$" &' '()*+ ≈ ℱ'()*+ ,- (#$" &') 陽に書ける変換 陽に書けない変換 ⼀般的な超解像では簡単な劣化を仮定

Slide 10

Slide 10 text

Data Strategy and Operation Center 頑健性向上のアプローチ ⾼解像度画像 %& ∈ %&と同定できる低解像度画像空間 !"#$% &' (#$" &' '()*+ ≈ ℱ'()*+ ,- (#$" &') 劣化を合成して対応できる範囲を拡⼤ (SRMD etc.) ➡ 劣化を記述できるが範囲が狭い 陽に書ける変換 陽に書けない変換

Slide 11

Slide 11 text

Data Strategy and Operation Center 頑健性向上のアプローチ ⾼解像度画像 %& ∈ %&と同定できる低解像度画像空間 !"#$% &' (#$" &' '()*+ ≈ ℱ'()*+ ,- .)*( ≈ ℱ.)*( ,- (#$" &') 起こりうる劣化を実際に観測 (SR-RAW, RealSR) ➡ 範囲は広いが劣化はブラックボックス 陽に書ける変換 陽に書けない変換

Slide 12

Slide 12 text

Data Strategy and Operation Center Real-paired Dataset を作るアプローチ ① SR-RAW [X. Zhang+ CVPR2019] • HR画像からLR画像を⽣成するのではなく, HR/LR画像を実際に観測 > カメラを固定して焦点距離を変化させながら画像を撮影 > 倍率の異なる各画像の同⼀領域をクロップ • 劣化 を近似する悪影響がなくなるため,⾼精度化が期待できる

Slide 13

Slide 13 text

Data Strategy and Operation Center Real-paired Dataset を作るアプローチ ② RealSR [J. Cai+ ICCV2019] • NTIRE2019 Competition @CVPRW のデータセット > 倍率不明コンペ • SR-RAWに⽐べ,被写体が物理的に近い > 最⼤焦点距離が105mm (SR-RAWは240mm)

Slide 14

Slide 14 text

⽂字と超解像

Slide 15

Slide 15 text

Data Strategy and Operation Center ⽂字と超解像 前処理として超解像を導⼊すると⽂字認識精度は向上 • 深層学習時代以前から検証されている [C. Mancas-Thillou & M. Mirmehdi 2007] > 動画像からモーション推定やフィルタリングを駆使した⼿法 ICDAR 2015 Competition on Text Image Super-Resolution • 画質評価指標とOCR精度を競うコンペティション > OCR精度: Tesseractの認識結果の⽂字誤り率 (CER) = & (+,-,.) 0 (: 挿⼊回数, : 置換回数, : 削除回数, : ⽂字列⻑) • SRCNN [C. Dong+ ECCV2014] が優勝 > CNNベース超解像の先駆け https://projet.liris.cnrs.fr/sr2015/

Slide 16

Slide 16 text

Data Strategy and Operation Center 弊社での取り組み 背景 • 海外進出時における悩み > 発展途上国に普及しているデバイスは⽐較的廉価&カメラの解像度が低い > データ化⾃動化率低下への懸念 名刺超解像プロジェクト • CNNベース超解像を⽤いて⽂字認識精度向上を⽬指す • 得られる恩恵 > 完全⼀致率(Email): 46.26% → 79.01% > データ⼊⼒オペレータの視認性向上 実際の処理結果

Slide 17

Slide 17 text

Data Strategy and Operation Center ⽂字に特化した超解像モデル TextSR [W. Wang+ 2019] • 超解像モデルの後段に⽂字認識モデルを配置 • 学習時に⽂字認識の誤差も逆伝播することで,⽂字認識に適した画像を⽣成 Generator⾃体は系列情報を捉えていない? ⽂字認識モデルが挿し代わる度に再学習が必要?

Slide 18

Slide 18 text

論⽂紹介

Slide 19

Slide 19 text

Data Strategy and Operation Center 論⽂の概要 Scene Text Image Super-Resolution in the Wild [W. Wang+ ECCV2020] • ⽂字超解像に特化した TextZoom Dataset の提案 > ⽂字認識における最初の Real-paired Dataset • ⽂字超解像に適したモデル・学習⽅法の検討 > Real-paired Dataset における Misalignment への対策 > TextSRの⽋点を克服するネットワーク構造・誤差関数 TextZoom Dataset のサンプル

Slide 20

Slide 20 text

TextZoom Dataset

Slide 21

Slide 21 text

Data Strategy and Operation Center TextZoom Dataset SR-RAW, RealSRからテキスト部分を抽出したデータセット EDAから得られる知⾒ 上記の知⾒から,倍率はx2,画像サイズは LR: (16, 64) / HR: (32, 128) と決定 • ⾼さが8-16pxならば16px,16-32pxならば32pxにアップサンプルしてデータ作成 > 範囲外のデータは捨てる 1. No patching: ⽂字列を途中でクロップすることは問題設定に適さない 2. Accuracy distribution: ⾼さ32px以上になると精度がサチる & 8px未満は読めない 3. Number: ⾼さ8-32pxの画像がマジョリティ 4. No down-sample: リアルなボケを利⽤するため,ダウンサンプルは厳禁

Slide 22

Slide 22 text

Data Strategy and Operation Center Difficulty SR-RAWとRealSRではOCRの難易度に差がある • 近しい焦点距離 (SR-RAW: 100m, RealSR: 105mm) でOCR精度を⽐較 > SR-RAW: 52.1% / RealSR: 75.0% > RealSRの⽅が被写体との距離が近く,認識が容易 Difficultyを定義 • easy: RealSRからサンプルされた画像 • middle: SR-RAWのうち焦点距離が50mm以上の画像 • hard: SR-RAWのうち焦点距離が50mmより⼩さいの画像 easy samples middle samples hard samples

Slide 23

Slide 23 text

提案モデル

Slide 24

Slide 24 text

Data Strategy and Operation Center 提案モデル (Text Super-Resolution Network; TSRN)

Slide 25

Slide 25 text

Data Strategy and Operation Center 提案モデル (Text Super-Resolution Network; TSRN) Generator内部で系列情報を認識 誤差関数に認識モデルを使わない L2 Loss + GP Loss(勾配画像のL1 Loss)

Slide 26

Slide 26 text

Data Strategy and Operation Center Real-paired Dataset と Misalignment 厳密に撮影状況は固定できない • 同時撮影は原理上不可能であり,三脚を完全に固定することも不可能 焦点距離を変更すると Misalignment が発⽣ • SR-HRの位置合わせがどこかで必要 > SR-RAWだとContextual Bilateral Lossによって対処 Misalignment の種類 [X. Zhang+ CVPR2019]

Slide 27

Slide 27 text

Data Strategy and Operation Center 提案モデル (Text Super-Resolution Network; TSRN) ここで Misalignment に対処

Slide 28

Slide 28 text

Data Strategy and Operation Center Central Alignment Module TextZoomでは,LR画像に⽐べてHR画像が中央寄せされる傾向にある • STN(Spatial Transformer Network) [B. Shi+ CVPR2016]を使って Alignment > Control-pointsをグリッド状に配置し,座標をパラメータとして学習 > Control-pointsが元のグリッドに戻るように薄板スプライン変換で変形 GIF animation from https://github.com/WarBean/tps_stn_pytorch STNによる位置合わせの例 Central Alignment Module による中央寄せ

Slide 29

Slide 29 text

実験

Slide 30

Slide 30 text

Data Strategy and Operation Center Synthetic LR vs TextZoom LR 合成データと提案データで学習し,出⼒画像の⽂字認識精度を⽐較 • 合成データは TextZoom HR を縮⼩して学習ペアを作成 • ほぼ全てのモデル-認識器ペアで TextZoom LRが優位 +1.1-3.3% +3.4-6.0% +8.7-13.8%

Slide 31

Slide 31 text

Data Strategy and Operation Center Ablation Study ネットワーク構造・align・GP Lossの有効性を確認 • SRResNet に⽐べ,系列情報を扱う SRBs が優位 • medium, hard において Central Alignment Module による改善幅が⼤きい +4.9% +1.6% +0.5%

Slide 32

Slide 32 text

Data Strategy and Operation Center Central Alignment Module の有効性 エッジのボケ (double shadow) が改善 • Misalignment の発⽣しやすい middle, hard では特に有効と考えられる

Slide 33

Slide 33 text

Data Strategy and Operation Center SOTAモデルとの⽐較 ZoomText で学習した SOTAモデルと⽐較 TSRNが最⾼精度 & Bicubicから10%以上改善

Slide 34

Slide 34 text

Data Strategy and Operation Center 視覚的な⽐較 ⽂字認識精度だけではなく,視覚的にも提案モデルが良好

Slide 35

Slide 35 text

Data Strategy and Operation Center まとめ ⽂字と超解像 • 近年の超解像研究は頑健性を⾼める⽅向にある > Real-paired Dataset を⽤いるアプローチを紹介 • ⽂字超解像はマルチタスク・マルチモーダルな問題 > ドメインの特性に則った⼿法の選定が重要 e.g. モデル⾃⾝が系列情報を扱う etc. 論⽂紹介: Scene Text Image Super-Resolution in the Wild • ⽂字超解像における Real-paired Dataset を初めて提案 • 先⾏研究の課題を SRB, Central Alignment Module, GP Loss で解決 • Bicubicアップスケールと⽐べ,⽂字認識精度を10%以上向上

Slide 36

Slide 36 text

Data Strategy and Operation Center 参考⽂献 • [X. Zhang+ CVPR2019] • X. Zhang, Q. Chen, R. Ng, and V. Koltun, “Zoom to learn, learn to zoom,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 3762–3770. • [J. Cai+ ICCV2019] • J. Cai, H. Zeng, H. Yong, Z. Cao, and L. Zhang, “Toward real-world single image super-resolution: A new benchmark and a new model,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 3086–3095. • [W. Wang+ 2019] • W. Wang et al., “TextSR: Content-Aware Text Super-Resolution Guided by Recognition,” arXiv [cs.CV], Sep. 16, 2019. • [W. Wang+ ECCV2020] • W. Wang et al., “Scene Text Image Super-Resolution in the Wild,” arXiv [cs.CV], May 07, 2020. • [B. Shi+ CVPR2016] • B. Shi, X. Wang, P. Lyu, C. Yao, and X. Bai, “Robust scene text recognition with automatic rectification,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 4168–4176.

Slide 37

Slide 37 text

No content