Slide 1

Slide 1 text

Meta-Transfer Learning for Zero-Shot Super-Resolution Sansan株式会社 DSOC R&D Automation Group 内⽥奏 第三回 全⽇本コンピュータビジョン勉強会 (後編)

Slide 2

Slide 2 text

Data Strategy and Operation Center ⾃⼰紹介 • 2018/03: 東京電機⼤学⼯学部情報通信⼯学科 卒業 • 2020/03: 同⼤学院⼯学研究科情報通信⼯学専攻 修了 • 2020/04: Sansan株式会社 ⼊社 内⽥ 奏 So Uchida twitter.com/s_aiueo32 github.com/S-aiueo32 Sansan 株式会社 DSOC R&D(研究開発部) Automation Group 研究員

Slide 3

Slide 3 text

会社紹介 Company Profile

Slide 4

Slide 4 text

Data Strategy and Operation Center Sansan株式会社が展開する2つの事業 クラウド名刺管理サービス 名刺アプリ

Slide 5

Slide 5 text

Data Strategy and Operation Center 組織構成 法⼈向け名刺管理サービス Sansanの開発、提供 個⼈向け名刺アプリサービス Eightの開発、提供 R&D データ分析・研究開発 (画像処理/機械学習・AI) Sansan事業部 Eight事業部 DSOC Sansan株式会社 データ統括部⾨

Slide 6

Slide 6 text

Data Strategy and Operation Center 名 刺 が ⽰ す 情 報 会社・個⼈の情報 つながり→⼈脈 強み 業種、職種、役職、地域 い つ 、 ど の 部 署 ・ 役 職 の ⼈と出会ったか 横の繋がりの豊富さから、 名刺所有者のナレッジ・経験 がある領域が⽰唆されている 役職名 ⽒名 企業名 メールアドレス/ 電話番号 / URL 1 2 3 Sansan株式会社の事業成⻑を根幹から⽀える 「出会い」のデータベースを構築

Slide 7

Slide 7 text

Data Strategy and Operation Center スマートキャプチャー 撮影されてから数秒で結果をユーザーに届けることを可能にする技術 項⽬セグメンテーション ⽂字を読み取らずに、名刺のデザインから項⽬を⾒分ける ⾔語判定 ⽂字を読み取らずに⾔語を判定 ミステイクディテクター 誤りの傾向を学習してミスの可能性を予測 独⾃に研究開発したさまざまな画像認識技術によって、名刺を⾼速かつ⾼精度でデータ化 AI・画像認識技術

Slide 8

Slide 8 text

Data Strategy and Operation Center Sansan Innovation Lab

Slide 9

Slide 9 text

論⽂紹介

Slide 10

Slide 10 text

Data Strategy and Operation Center アジェンダ 1. 論⽂情報 2. 概要 3. 事前知識 4. 提案⼿法 5. 実験 6. 結論

Slide 11

Slide 11 text

Data Strategy and Operation Center 論⽂情報 タイトル Meta-Transfer Learning for Zero-Shot Super-Resolution 著者/所属 Jae Woong Soh, Sunwoo Cho, and Nam Ik Cho (Seoul National University) 発表区分 Poster, 3D From a Single Image and Shape-From-X / 3D From Multiview and Sensors / Image Retrieval / Datasets and Evaluation / Low-Level and Physics- Based Vision Links: Paper / Implementation

Slide 12

Slide 12 text

Data Strategy and Operation Center 概要 Zero-Shot Super-Resolutionに対してメタ転移学習を導⼊ • Zero-Shot Super-Resolution: Internal Learningによる超解像⼿法 • 任意のテスト画像へ⾼速に適応できる初期値を学習 外部/内部サンプルを利⽤することで,両者の利点を⽣かして⾼精度

Slide 13

Slide 13 text

事前知識

Slide 14

Slide 14 text

Data Strategy and Operation Center 超解像とは ⼊⼒信号の解像度を⾼めて出⼒する技術 i.e. ⾼解像度化 • 画像以外にも⾳声,電波,センシングの分野でも登場 • ⾼周波成分の復元を指す場合もある 超解像画像(SR) 低解像度画像(LR)

Slide 15

Slide 15 text

Data Strategy and Operation Center 問題設定 超解像は画像復元問題の⼀種 • 低解像度(LR)画像は⾼解像度(HR)画像が劣化して⽣成されると仮定 • 劣化の逆変換ℱを求めることが⽬標 超解像画像 !" 低解像度画像 #" 復元 劣化 ⾼解像度画像 $" $" ℱ #"

Slide 16

Slide 16 text

Data Strategy and Operation Center 何が難しい? 不良設定 • 1つの⼊⼒画像に対し,妥当な解が無数に存在 劣化は未知 • 簡単のため劣化をBicubicダウンサンプルと仮定することが多い > ただし実環境でうまくいかない ①劣化 ②復元 同じ画像が ⽣成される どの画像に 復元すべきか?

Slide 17

Slide 17 text

Data Strategy and Operation Center CNNベースの超解像⼿法の流れ SRCNN VDSR FSRCNN ESPCN SRResNet EDSR RDN RCAN DBPN ESRGAN SAN 2014 2016 2017 2018 2019 2020 Fidelity Perception Flexibility Johnson et al. EnhanceNet SRGAN ZSSR SRMD KernelGAN IKC MetaSR DPSR USRNet MZSR (提案⼿法) 劣 化 に Bicubic を 仮 定

Slide 18

Slide 18 text

Data Strategy and Operation Center 画像内部情報の有効性 同⼀パターンの異なるスケールでの映り込み • Non-deepな⼿法でも部分的に⾼精度となる場合がある > 例)⼩さいバルコニーの柵 内部情報を利⽤すると上⼿くいく例

Slide 19

Slide 19 text

Data Strategy and Operation Center ZSSR [Shocher+ CVPR2018] Internal Learning による超解像⼿法 • テスト画像 からLR画像 ↓" を⽣成しCNNを学習 • ↓" の⽣成に利⽤するカーネルは [Michaeli+ ICCV2013] によって推定 劣化が不明な状態で従来⼿法より⾼精度を達成 学習⽅法の⽐較 出⼒画像の⽐較

Slide 20

Slide 20 text

1枚毎にモデルを学習するのは現実的?

Slide 21

Slide 21 text

Data Strategy and Operation Center メタ学習 どうやってタスクを解けばいいかを学習する⽅法 • 学習のための学習 (Learn to Learn) といわれる • 強化学習の⽂脈でよく登場 MAML [Finn+ ICML2017] • モデル・タスク⾮依存なメタ学習⼿法 > 「モデルが微分可能である」ことだけが条件 • 任意のタスクへ⾼速に適応できる初期値を学習

Slide 22

Slide 22 text

Data Strategy and Operation Center MAMLのアルゴリズム サンプルしたタスク上で 回パラメータ更新し!を得る タスクをサンプル タスク誤差の和を最⼩化する⽅向 にパラメータを更新 パラメータの初期化

Slide 23

Slide 23 text

提案⼿法

Slide 24

Slide 24 text

Data Strategy and Operation Center 提案⼿法 (MZSR)

Slide 25

Slide 25 text

Data Strategy and Operation Center Large-scale Training DIV2K [Agustsson+ CVPRW2017] による事前学習 • データ: Bicubicダウンサンプルにより作成したHR-LRペア • MAMLの学習の安定化に寄与 ここで学習した重みを各タスクに対しFine-tuneするから「Transfer」 ℒ%() = ~ (!", (#" $%& [ I*+ − , I-+ ./0 1 ]

Slide 26

Slide 26 text

Data Strategy and Operation Center 提案⼿法 (MZSR)

Slide 27

Slide 27 text

Data Strategy and Operation Center Meta-Transfer Learning MAMLの学習 • HR-LRペア作成時のガウシアンカーネル がMAMLにおけるタスクに相当 > カーネル は下式の共分散⾏列 により決定 • DIV2Kをinner/outer-loop毎に#$ , #% に分割して学習 = cos(Θ) −sin(Θ) sin(Θ) cos(Θ) " 0 0 # cos(Θ) sin(Θ) −sin(Θ) cos(Θ) , where Θ~ 0, , "~ 1, 2.5 , #~ 1, "

Slide 28

Slide 28 text

Data Strategy and Operation Center 提案⼿法 (MZSR)

Slide 29

Slide 29 text

Data Strategy and Operation Center Meta-Test MZSRにおけるMeta-TestはZSSRの学習・テストと等価 • (再掲) ZSSR > テスト画像 からLR画像 $%& を⽣成しCNNを学習 > $%& の⽣成に利⽤するカーネルは [Michaeli+ ICCV2013] によって推定 ここでの収束の速さと精度が評価対象

Slide 30

Slide 30 text

Data Strategy and Operation Center 実験 学習設定 • 倍率: 2倍 • ネットワーク構造: 8層のCNN + Residual Learning • Inner-loopの反復回数: 5回 • 勾配消失/爆発対策 > Inner-loopの各ステップで計算される誤差の荷重和を利⽤する (?) 評価指標 • PSNR [dB]: 信号の最⼤パワーと誤差の⽐, MSEをlogスケールにしたもの • SSIM: 構造類似度, 局所的な輝度・コントラスト・構造変化に過敏に反応 ネットワーク構造のイメージ [Kim+ CVPR16]

Slide 31

Slide 31 text

Data Strategy and Operation Center Bicubicダウンサンプルでの⽐較 BicubicではSupervisedな⼿法が優位 • ドメインギャップのない設定ではSupervisedな⼿法が強い ZSSRに⽐べ少ない反復回数で精度向上 • 反復回数: Meta-Transfer Learningにより良い初期値を⾒つけられている • 精度向上: Large-scale Trainingにより外部情報も利⽤できるため

Slide 32

Slide 32 text

Data Strategy and Operation Center 複数のブラーカーネルでの⽐較 4つのテストパターンで評価 • &.( ) : = 0.2の等⽅性カーネル + Direct Subsample • (.& ) : = 0.2の等⽅性カーネル + Direct Subsample • *+, ) : - = 4.0, ( = 1.0, Θ = −0.5の異⽅性カーネル + Direct Subsample • -.. / : = 1.2のガウシアンカーネル + Bicubic Subsample

Slide 33

Slide 33 text

Data Strategy and Operation Center 複数のブラーカーネルでの⽐較 概ねいい感じ • &.( ) : MZSRにとってはUnseenな設定だが,それなりにいい結果 (学習時 > 1.0) • -.. / : IKCの学習時の設定だが,MZSRがそれを超える精度

Slide 34

Slide 34 text

Data Strategy and Operation Center 収束速度の⽐較 MZSRは10回の更新でほぼ収束

Slide 35

Slide 35 text

Data Strategy and Operation Center 1回の更新後の出⼒画像 Bicubic-pretrainedの改善はほぼ無いが,MZSRは⼤幅に改善 MZSR (提案⼿法) Bicubic pretrained

Slide 36

Slide 36 text

Data Strategy and Operation Center その他議論 マルチスケールな学習は有効か? • ⾼倍率では尤もらしいタスク分布を定義するのが難しい • そもそも⾼倍率で有効な"0+ を作るのは難しい • 再帰的なパターンがある画像に限っては有効? 複雑性 • 教師ありのモデル⽐べパラメータは圧倒的に少ない • 収束もZSSRに⽐べ1,000倍くらい⾼速 > CARNやRCANを実⽤的な速度とするならば MZSRは速度的にも⼗分実⽤的

Slide 37

Slide 37 text

Data Strategy and Operation Center まとめ • Zero-Shot Super-Resolution • Internal Learningによる超解像⼿法 • メタ学習 • 提案⼿法 (MZSR) • 実験結果 • メタ学習で獲得した初期値を使うと1-10回のパラメータ更新で良い結果 • 事前学習によりZSSRより精度向上 • Unseenな設定にも対応可能なことを確認

Slide 38

Slide 38 text

Data Strategy and Operation Center 引⽤⽂献 紹介論⽂ Soh, Jae Woong, Sunwoo Cho, and Nam Ik Cho. "Meta-Transfer Learning for Zero-Shot Super-Resolution." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. [Shocher+ CVPR2018] Shocher, Assaf, Nadav Cohen, and Michal Irani. "“zero-shot” super-resolution using deep internal learning." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. [Michaeli+ ICCV2013] Michaeli, Tomer, and Michal Irani. "Nonparametric blind super-resolution." Proceedings of the IEEE International Conference on Computer Vision. 2013. [Finn+ ICML2017] Finn, Chelsea, Pieter Abbeel, and Sergey Levine. "Model-agnostic meta-learning for fast adaptation of deep networks." Proceedings of the 34th International Conference on Machine Learning-Volume 70. 2017. [Kim+ CVPR16] Kim, Jiwon, Jung Kwon Lee, and Kyoung Mu Lee. "Accurate image super-resolution using very deep convolutional networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

Slide 39

Slide 39 text

We are hiring!

Slide 40

Slide 40 text

No content