Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文読み会] Learning to Exploit Multiple Vision Modalities by Using Grafted Networks

6f8838b2708a87ccf1015030f16880ef?s=47 godel
December 12, 2020

[論文読み会] Learning to Exploit Multiple Vision Modalities by Using Grafted Networks

第五回 全日本コンピュータビジョン勉強会
ECCV2020読み会

遠赤外線カメラ、イベントカメラ等の多様な画像データに関する画像処理の深層学習
に関する論文を読みました。

Hu, Yuhuang, Tobi Delbruck, and Shih-Chii Liu. 2020. “Learning to Exploit Multiple Vision Modalities by Using Grafted Networks.” In Computer Vision – ECCV 2020, 85–101. Springer International Publishing.

https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/2499_ECCV_2020_paper.php
https://www.youtube.com/watch?v=sUqFM4xCZHI

6f8838b2708a87ccf1015030f16880ef?s=128

godel

December 12, 2020
Tweet

Transcript

  1. “Learning to Exploit Multiple Vision Modalities by Using Grafted Networks”

    Hu Yuhuang, Tobi Delbruck, Shih-Chii Liu 第五回 全日本コンピュータビジョン勉強会 ECCV2020読み会 Godel @___Godel
  2. アジェンダ • 画像計測モデル • 様々な画像データ • 様々なのデータセットでの統一的な学習方法の提案(当該論文) • Learning to

    Exploit Multiple Vision Modalities • Grafted Networks (接ぎ木ネットワーク)
  3. 光計測モデル 参考文献:田中法博,望月宏祐,林一成,合津正史,禹在勇,”マルチバンドカメラを用いた分光ベースの反射モデル推定”,情報処理学会 研究報告グラフィクスと CAD (CG) 135,2009,Vol.3,pp1-6 波長 λ ρ=C ⊗

    ⊗ S ⊗ E(λ) 電磁波・音波の計測器は 分布関数の直積空間を捉 えている 波長 λを広く考える =電磁波・音波 計測モデルは同じ アナロジーで考えら れる
  4. 光は電磁波の仲間・波の仲間 音波

  5. 電磁波・音波による画像(2次元配列強度情報) SAR(合成開口レーダー)Lバンド (1〜2GHz)、 Cバンド(4〜 8GHz)、Xバンド(8〜12GHz) http://syntheticapertureradar.com/very-high- resolution-sar-images/#prettyPhoto[gal_2]/2/ THz Image https://www.acq.o

    sd.mil/ncbdp/nm/ pseag/capabilitya reas/P/LRTHzIR.ht ml Millimeter wave passive Image https://www.wikiwand.com/j a/%E3%83%9F%E3%83% AA%E6%B3%A2%E3%83 %91%E3%83%83%E3%8 2%B7%E3%83%96%E6%9 2%AE%E5%83%8F%E8%A 3%85%E7%BD%AE 音波 https://www.extremetech.co m/mobile/220598- qualcomms-new-fingerprint- sensor-uses-ultrasonic- waves-could-be-built-into- screens Ultra Sonic 3D Image(>20 KHz) https://www.simrad-yachting.com/sonar-and- transducers/structurescan-3d/ 3D Sonar Image(15KHz- 200KHz) https://www.m-satellite.jp/info/02.html MRI Image Delaunay, Pierre-Yves, et al. "Advances in III-V based dual-band MWIR/LWIR FPAs at HRL." Infrared Technology and Applications XLIII. Vol. 10177. International Society for Optics and Photonics, 2017. SWIR 可視(煙) LWIR https://2.bp.blogspot.com/-O- Z17hAnArw/VkNs4Dcl- wI/AAAAAAAAAQI/fR8tPiVVX5s/s1600/Pi cture6.png
  6. 問題提起1 • 目的:人を検知 • 条件:昼間 • 使用画像:可視画像 • 中間情報: •

    物体検知(人) • セマンティックセグメンテー ション • 目的:人を検知 • 条件:高速移動体から検知 • 使用画像:イベントカメラ画像 • 中間情報: • イベントカメラ物体検知(人) • イベントカメラセマンティック セグメンテーション • 目的:人を検知 • 条件:昼間、照明の無い夜間 • 使用画像:LWIR • 中間情報: • LWIR物体検知(人) • LWIRセマンティックセグメン テーション • 目的:人を検知 • 条件:濃い霧、雲越し • 使用画像:SAR画像 • 中間情報: • SAR画像物体検知(人) • SAR画像セマンティックセグ メンテーション • 目的:人を検知 • 条件:水中 • 使用画像:3Dソナー画像 • 中間情報: • 3Dソナー物体検知(人) • 3Dソナーセマンティックセ グメンテーション Multiple Vision Modalitiesに対応したDNN を、効率よく構築(すなわち学習)すること ができないだろうか? • 同じ目的でも、計測条件により用いる 画像が異なる • 目的が同じなら、中間情報は同じと考 えてよい
  7. 参照論文:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画:https://www.youtube.com/watch?v=sUqFM4xCZHI Fisher,R.:CVonline:ImageDatabases(2020),http://homepages.inf.ed .ac.uk/rbf/CVonline/Imagedbase.htm • 様々なドメインと少ないデータセット ✓ 可視画像以外の公開されているデータセットの数は少ない ✓ 新たなドメインの画像を学習させるためには、膨大な量の画像データのアノテーションコストが発

    生 → 様々なドメインにおいて少ない教示データで学習できないか? 問題提起2
  8. 参照論文:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画:https://www.youtube.com/watch?v=sUqFM4xCZHI 接ぎ木ネットワークを用いた複数の視覚モダリティに対する学習法 The Institute of Neuroinformatics in Zurich, (the

    University of Zurich and ETH Zurich共同研究所) センサグループ 博士課程学生 チューリッヒ工科大学教授 センサグループ Event Cameraの開発者 The Institute of Neuroinformaticsセンサグ ループリーダー 紹介論文
  9. 補足:イベントカメラ • Event-based Camera • 輝度の変化が生じたピクセル毎に、画像としてではなく (画素X,画素Y,輝度変化が生じた時間) を出力する2次元のイメージセンサ • 高速撮影可能(1000FPS以上)

    • 高ダイナミックレンジ(輝度変化や明暗が大きくても撮影可能) • IROS2013 WORKSHOP にて PROF.DAVIDE SCARAMUZZA(ETH)等が紹介し、研 究の中核となる。 • EVENT-BASED CAMERAは研究としては最盛期 • HTTP://RPG.IFI.UZH.CH/RESEARCH_DVS.HTML ( SCARAMUZZA研) • SSII2020チュートリアルセッション EVENT-BASED CAMERA の基礎とニューラルネット ワークによる信号処理 HTTPS://CONFIT.ATLAS.JP/GUIDE/EVENT/SSII2020/STATIC/LECTURENOTES • CVPR2020 WORKSHOP UNCONVENTIONAL SENSORS IN ROBOTICS: PERCEPTION FOR ONLINE LEARNING, ADAP-TIVE BEHAVIOR, AND COGNITION • PROFESEE(HTTPS://WWW.PROPHESEE.AI/BUY-EVENT-BASED-PRODUCTS-2/)がSONY と提携し商品開発 • 今後の課題 • 応用利用、実環境での利用 • SPIKING NEURAL NETWORKとの連携 https://gfycat.com/incredibleimpoliteblackmamba D. Falanga, S. Kim, D. Scaramuzza How Fast is Too Fast? The Role of Perception Latency in High-Speed Sense and Avoid IEEE Robotics and Automation Letters (RA-L), 2019.
  10. 本論文の貢献 1. Grafted Network(GN;接ぎ木ネットワーク) を新しい学 習方法であるNGA( Network Grafting Algorithm)を提 案

    • GNの仕様 可視画像(モノクロ画像)以外の画像の画像処理(物体認識、深 度推定、セマンティックセグメンテーション、姿勢推定等)をする ネットワークの構築 本論文では、遠赤外線画像、イベントカメラ画像の物体認識につ いて実証 2. 遠赤外画像、イベントカメラ画像の教示データの必要な い自己教師学習(self-supervised Learning)の提案 3. 新たに訓練されたGNは、遠赤外画像、イベントカメラ 画像を直接処理するため、可視画像学習済ネットワー クと同様の推論コストに抑える 4. NGAは、可視カメラでは困難な状況下でも、2次元情報 を入力として画像処理を構築可能とする
  11. 接ぎ木 生育 (学習) 参考資料:竹内園芸「接ぎ木苗」

  12. Network Grafting Algorithm 参考資料:竹内園芸「接ぎ木苗」 生育 (学習) 床 人 同時に撮影し たデータセット

  13. 参照論文:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画:https://www.youtube.com/watch?v=sUqFM4xCZHI 可視画像ドメイン イベントカメラ画像ドメイン 物体検出ドメイン (バウンディング ボックス) 中間情報1 ドメイン 中間情報2

    ドメイン Network Grafting Algorithm 親のニューラルネットワーク 子のニューラルネットワーク 知 識 蒸 留 ( 親 の 知 を 子 へ 伝 播 ) ド メ イ ン 適 応 スタイル変換
  14. 遠赤外線画像での物体検出(車)結果 参照論文:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画:https://www.youtube.com/watch?v=sUqFM4xCZHI The dataset has 4,855 training intensity-thermal pairs,

    and 1,256 testing pairs, of which 60% are daytime and 40% arenighttime driving samples.
  15. 参照論文:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画:https://www.youtube.com/watch?v=sUqFM4xCZHI イベントカメラ画像での物体検出(車)結果 We generated in total 7,000 intensity frames

    and event volume pairsfrom this recording. Each event volume containsN= 25,000 events. The first5,000 pairs are used as the training dataset, and the last 2,000 pairs are usedas the testing dataset.
  16. GNの性質 GNのfront end はどのくらいの層が必要か? ・入力するドメイン画像、出力するドメイン画像により変化する ・データセット依存もある 中間情報は、何を表しているか? ・必要な情報を含む画像情報となっている 参照論文:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画:https://www.youtube.com/watch?v=sUqFM4xCZHI

  17. Ablation Study on Loss Terms 参照論文:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画:https://www.youtube.com/watch?v=sUqFM4xCZHI

  18. まとめとおまけ 1. Grafted Network(GN;接ぎ木ネットワーク) を新しい学習方法であるNGA( Network Grafting Algorithm)を提案 2. 学習省力化

    遠赤外画像、イベントカメラ画像の教示データの必要ない自己教師学習(SELF-SUPERVISED LEARNING)の提案 3. 推論コスト維持 新たに訓練されたGNは、遠赤外画像、イベントカメラ画像を直接処理するため、可視画像学習済ネットワークと同様の推論コストに抑える 4. 汎用性 NGAは、可視カメラでは困難な状況下でも、2次元情報を入力として画像処理を構築可能とする ボーナスビデオ:イベントカメラ画像の姿勢推定 (汎用性の実証)