Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Meta-Transfer Learning for Zero-Shot Super-Resolution

Sansan DSOC
July 17, 2020

Meta-Transfer Learning for Zero-Shot Super-Resolution

■イベント 
:第三回 全日本コンピュータビジョン勉強会(後編)
https://kantocv.connpass.com/event/178147/

■登壇概要
タイトル:Meta-Transfer Learning for Zero-Shot Super-Resolution
発表者: 
DSOC 研究開発部 Automation Group 内田 奏

▼Twitter
https://twitter.com/SansanRandD

Sansan DSOC

July 17, 2020
Tweet

More Decks by Sansan DSOC

Other Decks in Science

Transcript

  1. Meta-Transfer Learning for Zero-Shot Super-Resolution Sansan株式会社 DSOC R&D Automation Group

    内⽥奏 第三回 全⽇本コンピュータビジョン勉強会 (後編)
  2. Data Strategy and Operation Center ⾃⼰紹介 • 2018/03: 東京電機⼤学⼯学部情報通信⼯学科 卒業

    • 2020/03: 同⼤学院⼯学研究科情報通信⼯学専攻 修了 • 2020/04: Sansan株式会社 ⼊社 内⽥ 奏 So Uchida twitter.com/s_aiueo32 github.com/S-aiueo32 Sansan 株式会社 DSOC R&D(研究開発部) Automation Group 研究員
  3. Data Strategy and Operation Center 組織構成 法⼈向け名刺管理サービス Sansanの開発、提供 個⼈向け名刺アプリサービス Eightの開発、提供

    R&D データ分析・研究開発 (画像処理/機械学習・AI) Sansan事業部 Eight事業部 DSOC Sansan株式会社 データ統括部⾨
  4. Data Strategy and Operation Center 名 刺 が ⽰ す

    情 報 会社・個⼈の情報 つながり→⼈脈 強み 業種、職種、役職、地域 い つ 、 ど の 部 署 ・ 役 職 の ⼈と出会ったか 横の繋がりの豊富さから、 名刺所有者のナレッジ・経験 がある領域が⽰唆されている 役職名 ⽒名 企業名 メールアドレス/ 電話番号 / URL 1 2 3 Sansan株式会社の事業成⻑を根幹から⽀える 「出会い」のデータベースを構築
  5. Data Strategy and Operation Center スマートキャプチャー 撮影されてから数秒で結果をユーザーに届けることを可能にする技術 項⽬セグメンテーション ⽂字を読み取らずに、名刺のデザインから項⽬を⾒分ける ⾔語判定

    ⽂字を読み取らずに⾔語を判定 ミステイクディテクター 誤りの傾向を学習してミスの可能性を予測 独⾃に研究開発したさまざまな画像認識技術によって、名刺を⾼速かつ⾼精度でデータ化 AI・画像認識技術
  6. Data Strategy and Operation Center アジェンダ 1. 論⽂情報 2. 概要

    3. 事前知識 4. 提案⼿法 5. 実験 6. 結論
  7. Data Strategy and Operation Center 論⽂情報 タイトル Meta-Transfer Learning for

    Zero-Shot Super-Resolution 著者/所属 Jae Woong Soh, Sunwoo Cho, and Nam Ik Cho (Seoul National University) 発表区分 Poster, 3D From a Single Image and Shape-From-X / 3D From Multiview and Sensors / Image Retrieval / Datasets and Evaluation / Low-Level and Physics- Based Vision Links: Paper / Implementation
  8. Data Strategy and Operation Center 概要 Zero-Shot Super-Resolutionに対してメタ転移学習を導⼊ • Zero-Shot

    Super-Resolution: Internal Learningによる超解像⼿法 • 任意のテスト画像へ⾼速に適応できる初期値を学習 外部/内部サンプルを利⽤することで,両者の利点を⽣かして⾼精度
  9. Data Strategy and Operation Center 超解像とは ⼊⼒信号の解像度を⾼めて出⼒する技術 i.e. ⾼解像度化 •

    画像以外にも⾳声,電波,センシングの分野でも登場 • ⾼周波成分の復元を指す場合もある 超解像画像(SR) 低解像度画像(LR)
  10. Data Strategy and Operation Center 問題設定 超解像は画像復元問題の⼀種 • 低解像度(LR)画像は⾼解像度(HR)画像が劣化して⽣成されると仮定 •

    劣化の逆変換ℱを求めることが⽬標 超解像画像 !" 低解像度画像 #" 復元 劣化 ⾼解像度画像 $" $" ℱ #"
  11. Data Strategy and Operation Center 何が難しい? 不良設定 • 1つの⼊⼒画像に対し,妥当な解が無数に存在 劣化は未知

    • 簡単のため劣化をBicubicダウンサンプルと仮定することが多い > ただし実環境でうまくいかない ①劣化 ②復元 同じ画像が ⽣成される どの画像に 復元すべきか?
  12. Data Strategy and Operation Center CNNベースの超解像⼿法の流れ SRCNN VDSR FSRCNN ESPCN

    SRResNet EDSR RDN RCAN DBPN ESRGAN SAN 2014 2016 2017 2018 2019 2020 Fidelity Perception Flexibility Johnson et al. EnhanceNet SRGAN ZSSR SRMD KernelGAN IKC MetaSR DPSR USRNet MZSR (提案⼿法) 劣 化 に Bicubic を 仮 定
  13. Data Strategy and Operation Center ZSSR [Shocher+ CVPR2018] Internal Learning

    による超解像⼿法 • テスト画像 からLR画像 ↓" を⽣成しCNNを学習 • ↓" の⽣成に利⽤するカーネルは [Michaeli+ ICCV2013] によって推定 劣化が不明な状態で従来⼿法より⾼精度を達成 学習⽅法の⽐較 出⼒画像の⽐較
  14. Data Strategy and Operation Center メタ学習 どうやってタスクを解けばいいかを学習する⽅法 • 学習のための学習 (Learn

    to Learn) といわれる • 強化学習の⽂脈でよく登場 MAML [Finn+ ICML2017] • モデル・タスク⾮依存なメタ学習⼿法 > 「モデルが微分可能である」ことだけが条件 • 任意のタスクへ⾼速に適応できる初期値を学習
  15. Data Strategy and Operation Center Large-scale Training DIV2K [Agustsson+ CVPRW2017]

    による事前学習 • データ: Bicubicダウンサンプルにより作成したHR-LRペア • MAMLの学習の安定化に寄与 ここで学習した重みを各タスクに対しFine-tuneするから「Transfer」 ℒ%() = ~ (!", (#" $%& [ I*+ − , I-+ ./0 1 ]
  16. Data Strategy and Operation Center Meta-Transfer Learning MAMLの学習 • HR-LRペア作成時のガウシアンカーネル

    がMAMLにおけるタスクに相当 > カーネル は下式の共分散⾏列 により決定 • DIV2Kをinner/outer-loop毎に#$ , #% に分割して学習 = cos(Θ) −sin(Θ) sin(Θ) cos(Θ) " 0 0 # cos(Θ) sin(Θ) −sin(Θ) cos(Θ) , where Θ~ 0, , "~ 1, 2.5 , #~ 1, "
  17. Data Strategy and Operation Center Meta-Test MZSRにおけるMeta-TestはZSSRの学習・テストと等価 • (再掲) ZSSR

    > テスト画像 からLR画像 $%& を⽣成しCNNを学習 > $%& の⽣成に利⽤するカーネルは [Michaeli+ ICCV2013] によって推定 ここでの収束の速さと精度が評価対象
  18. Data Strategy and Operation Center 実験 学習設定 • 倍率: 2倍

    • ネットワーク構造: 8層のCNN + Residual Learning • Inner-loopの反復回数: 5回 • 勾配消失/爆発対策 > Inner-loopの各ステップで計算される誤差の荷重和を利⽤する (?) 評価指標 • PSNR [dB]: 信号の最⼤パワーと誤差の⽐, MSEをlogスケールにしたもの • SSIM: 構造類似度, 局所的な輝度・コントラスト・構造変化に過敏に反応 ネットワーク構造のイメージ [Kim+ CVPR16]
  19. Data Strategy and Operation Center Bicubicダウンサンプルでの⽐較 BicubicではSupervisedな⼿法が優位 • ドメインギャップのない設定ではSupervisedな⼿法が強い ZSSRに⽐べ少ない反復回数で精度向上

    • 反復回数: Meta-Transfer Learningにより良い初期値を⾒つけられている • 精度向上: Large-scale Trainingにより外部情報も利⽤できるため
  20. Data Strategy and Operation Center 複数のブラーカーネルでの⽐較 4つのテストパターンで評価 • &.( )

    : = 0.2の等⽅性カーネル + Direct Subsample • (.& ) : = 0.2の等⽅性カーネル + Direct Subsample • *+, ) : - = 4.0, ( = 1.0, Θ = −0.5の異⽅性カーネル + Direct Subsample • -.. / : = 1.2のガウシアンカーネル + Bicubic Subsample
  21. Data Strategy and Operation Center 複数のブラーカーネルでの⽐較 概ねいい感じ • &.( )

    : MZSRにとってはUnseenな設定だが,それなりにいい結果 (学習時 > 1.0) • -.. / : IKCの学習時の設定だが,MZSRがそれを超える精度
  22. Data Strategy and Operation Center その他議論 マルチスケールな学習は有効か? • ⾼倍率では尤もらしいタスク分布を定義するのが難しい •

    そもそも⾼倍率で有効な"0+ を作るのは難しい • 再帰的なパターンがある画像に限っては有効? 複雑性 • 教師ありのモデル⽐べパラメータは圧倒的に少ない • 収束もZSSRに⽐べ1,000倍くらい⾼速 > CARNやRCANを実⽤的な速度とするならば MZSRは速度的にも⼗分実⽤的
  23. Data Strategy and Operation Center まとめ • Zero-Shot Super-Resolution •

    Internal Learningによる超解像⼿法 • メタ学習 • 提案⼿法 (MZSR) • 実験結果 • メタ学習で獲得した初期値を使うと1-10回のパラメータ更新で良い結果 • 事前学習によりZSSRより精度向上 • Unseenな設定にも対応可能なことを確認
  24. Data Strategy and Operation Center 引⽤⽂献 紹介論⽂ Soh, Jae Woong,

    Sunwoo Cho, and Nam Ik Cho. "Meta-Transfer Learning for Zero-Shot Super-Resolution." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. [Shocher+ CVPR2018] Shocher, Assaf, Nadav Cohen, and Michal Irani. "“zero-shot” super-resolution using deep internal learning." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. [Michaeli+ ICCV2013] Michaeli, Tomer, and Michal Irani. "Nonparametric blind super-resolution." Proceedings of the IEEE International Conference on Computer Vision. 2013. [Finn+ ICML2017] Finn, Chelsea, Pieter Abbeel, and Sergey Levine. "Model-agnostic meta-learning for fast adaptation of deep networks." Proceedings of the 34th International Conference on Machine Learning-Volume 70. 2017. [Kim+ CVPR16] Kim, Jiwon, Jung Kwon Lee, and Kyoung Mu Lee. "Accurate image super-resolution using very deep convolutional networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.