[論文読み会] Learning to Exploit Multiple Vision Modalities by Using Grafted Networks

“Learning to Exploit Multiple Vision Modalities by Using Grafted Networks”
Hu Yuhuang, Tobi Delbruck, Shih-Chii Liu 第五回全日本コンピュータビジョン勉強会 ECCV2020読み会 Godel @___Godel

アジェンダ • 画像計測モデル • 様々な画像データ • 様々なのデータセットでの統一的な学習方法の提案（当該論文） • Learning to
Exploit Multiple Vision Modalities • Grafted Networks （接ぎ木ネットワーク）

光計測モデル参考文献：田中法博,望月宏祐,林一成,合津正史,禹在勇,”マルチバンドカメラを用いた分光ベースの反射モデル推定”,情報処理学会研究報告グラフィクスと CAD (CG) 135,2009,Vol.3,pp1-6 波長 λ ρ＝C ⊗
⊗ S ⊗ E（λ）電磁波・音波の計測器は分布関数の直積空間を捉えている波長 λを広く考える＝電磁波・音波計測モデルは同じアナロジーで考えられる

光は電磁波の仲間・波の仲間音波

電磁波・音波による画像（2次元配列強度情報） SAR（合成開口レーダー）Lバンド（1〜2GHz）、 Cバンド(4〜 8GHz)、Xバンド(8〜12GHz) http://syntheticapertureradar.com/very-high- resolution-sar-images/#prettyPhoto[gal_2]/2/ THｚ Image https://www.acq.o
sd.mil/ncbdp/nm/ pseag/capabilitya reas/P/LRTHzIR.ht ml Millimeter wave passive Image https://www.wikiwand.com/j a/%E3%83%9F%E3%83% AA%E6%B3%A2%E3%83 %91%E3%83%83%E3%8 2%B7%E3%83%96%E6%9 2%AE%E5%83%8F%E8%A 3%85%E7%BD%AE 音波 https://www.extremetech.co m/mobile/220598- qualcomms-new-fingerprint- sensor-uses-ultrasonic- waves-could-be-built-into- screens Ultra Sonic 3D Image(>20 KHz） https://www.simrad-yachting.com/sonar-and- transducers/structurescan-3d/ 3D Sonar Image(15KHz- 200KHz） https://www.m-satellite.jp/info/02.html MRI Image Delaunay, Pierre-Yves, et al. "Advances in III-V based dual-band MWIR/LWIR FPAs at HRL." Infrared Technology and Applications XLIII. Vol. 10177. International Society for Optics and Photonics, 2017. SWIR 可視（煙） LWIR https://2.bp.blogspot.com/-O- Z17hAnArw/VkNs4Dcl- wI/AAAAAAAAAQI/fR8tPiVVX5s/s1600/Pi cture6.png

問題提起１ • 目的：人を検知 • 条件：昼間 • 使用画像：可視画像 • 中間情報： •
物体検知（人） • セマンティックセグメンテーション • 目的：人を検知 • 条件：高速移動体から検知 • 使用画像：イベントカメラ画像 • 中間情報： • イベントカメラ物体検知（人） • イベントカメラセマンティックセグメンテーション • 目的：人を検知 • 条件：昼間、照明の無い夜間 • 使用画像：LWIR • 中間情報： • LWIR物体検知（人） • LWIRセマンティックセグメンテーション • 目的：人を検知 • 条件：濃い霧、雲越し • 使用画像：SAR画像 • 中間情報： • SAR画像物体検知（人） • SAR画像セマンティックセグメンテーション • 目的：人を検知 • 条件：水中 • 使用画像：３Dソナー画像 • 中間情報： • ３Dソナー物体検知（人） • ３Dソナーセマンティックセグメンテーション Multiple Vision Modalitiesに対応したDNN を、効率よく構築（すなわち学習）することができないだろうか？ • 同じ目的でも、計測条件により用いる画像が異なる • 目的が同じなら、中間情報は同じと考えてよい

参照論文：http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画：https://www.youtube.com/watch?v=sUqFM4xCZHI Fisher,R.:CVonline:ImageDatabases(2020),http://homepages.inf.ed .ac.uk/rbf/CVonline/Imagedbase.htm • 様々なドメインと少ないデータセット ✓ 可視画像以外の公開されているデータセットの数は少ない ✓ 新たなドメインの画像を学習させるためには、膨大な量の画像データのアノテーションコストが発
生 → 様々なドメインにおいて少ない教示データで学習できないか？問題提起２

参照論文：http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画：https://www.youtube.com/watch?v=sUqFM4xCZHI 接ぎ木ネットワークを用いた複数の視覚モダリティに対する学習法 The Institute of Neuroinformatics in Zurich, （the
University of Zurich and ETH Zurich共同研究所）センサグループ博士課程学生チューリッヒ工科大学教授センサグループ Event Cameraの開発者 The Institute of Neuroinformaticsセンサグループリーダー紹介論文

補足：イベントカメラ • Event-based Camera • 輝度の変化が生じたピクセル毎に、画像としてではなく（画素Ｘ,画素Ｙ,輝度変化が生じた時間）を出力する2次元のイメージセンサ • 高速撮影可能（1000FPS以上）
• 高ダイナミックレンジ（輝度変化や明暗が大きくても撮影可能） • IROS2013 WORKSHOP にて PROF.DAVIDE SCARAMUZZA(ETH)等が紹介し、研究の中核となる。 • EVENT-BASED CAMERAは研究としては最盛期 • HTTP://RPG.IFI.UZH.CH/RESEARCH_DVS.HTML （ SCARAMUZZA研） • SSII2020チュートリアルセッション EVENT-BASED CAMERA の基礎とニューラルネットワークによる信号処理 HTTPS://CONFIT.ATLAS.JP/GUIDE/EVENT/SSII2020/STATIC/LECTURENOTES • CVPR2020 WORKSHOP UNCONVENTIONAL SENSORS IN ROBOTICS: PERCEPTION FOR ONLINE LEARNING, ADAP-TIVE BEHAVIOR, AND COGNITION • PROFESEE(HTTPS://WWW.PROPHESEE.AI/BUY-EVENT-BASED-PRODUCTS-2/)がSONY と提携し商品開発 • 今後の課題 • 応用利用、実環境での利用 • SPIKING NEURAL NETWORKとの連携 https://gfycat.com/incredibleimpoliteblackmamba D. Falanga, S. Kim, D. Scaramuzza How Fast is Too Fast? The Role of Perception Latency in High-Speed Sense and Avoid IEEE Robotics and Automation Letters (RA-L), 2019.

本論文の貢献 1. Grafted Network(GN；接ぎ木ネットワーク) を新しい学習方法であるNGA（ Network Grafting Algorithm）を提案
• GNの仕様可視画像（モノクロ画像）以外の画像の画像処理（物体認識、深度推定、セマンティックセグメンテーション、姿勢推定等）をするネットワークの構築本論文では、遠赤外線画像、イベントカメラ画像の物体認識について実証 2. 遠赤外画像、イベントカメラ画像の教示データの必要ない自己教師学習（self-supervised Learning）の提案 3. 新たに訓練されたGNは、遠赤外画像、イベントカメラ画像を直接処理するため、可視画像学習済ネットワークと同様の推論コストに抑える 4. NGAは、可視カメラでは困難な状況下でも、2次元情報を入力として画像処理を構築可能とする

接ぎ木生育（学習）参考資料：竹内園芸「接ぎ木苗」

Network Grafting Algorithm 参考資料：竹内園芸「接ぎ木苗」生育（学習）床人同時に撮影したデータセット

参照論文：http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画：https://www.youtube.com/watch?v=sUqFM4xCZHI 可視画像ドメインイベントカメラ画像ドメイン物体検出ドメイン（バウンディングボックス）中間情報１ドメイン中間情報２
ドメイン Network Grafting Algorithm 親のニューラルネットワーク子のニューラルネットワーク知識蒸留（親の知を子へ伝播）ドメイン適応スタイル変換

遠赤外線画像での物体検出（車）結果参照論文：http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画：https://www.youtube.com/watch?v=sUqFM4xCZHI The dataset has 4,855 training intensity-thermal pairs,
and 1,256 testing pairs, of which 60% are daytime and 40% arenighttime driving samples.

参照論文：http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画：https://www.youtube.com/watch?v=sUqFM4xCZHI イベントカメラ画像での物体検出（車）結果 We generated in total 7,000 intensity frames
and event volume pairsfrom this recording. Each event volume containsN= 25,000 events. The first5,000 pairs are used as the training dataset, and the last 2,000 pairs are usedas the testing dataset.

GNの性質 GNのfront end はどのくらいの層が必要か？・入力するドメイン画像、出力するドメイン画像により変化する・データセット依存もある中間情報は、何を表しているか？・必要な情報を含む画像情報となっている参照論文：http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画：https://www.youtube.com/watch?v=sUqFM4xCZHI

Ablation Study on Loss Terms 参照論文：http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画：https://www.youtube.com/watch?v=sUqFM4xCZHI

まとめとおまけ 1. Grafted Network(GN；接ぎ木ネットワーク) を新しい学習方法であるNGA（ Network Grafting Algorithm）を提案 2. 学習省力化
遠赤外画像、イベントカメラ画像の教示データの必要ない自己教師学習（SELF-SUPERVISED LEARNING）の提案 3. 推論コスト維持新たに訓練されたGNは、遠赤外画像、イベントカメラ画像を直接処理するため、可視画像学習済ネットワークと同様の推論コストに抑える 4. 汎用性 NGAは、可視カメラでは困難な状況下でも、2次元情報を入力として画像処理を構築可能とするボーナスビデオ：イベントカメラ画像の姿勢推定（汎用性の実証）

[論文読み会] Learning to Exploit Multiple Vision Mod...

[論文読み会] Learning to Exploit Multiple Vision Modalities by Using Grafted Networks

godel PRO

More Decks by godel

Other Decks in Technology

Featured

Transcript

“Learning to Exploit Multiple Vision Modalities by Using Grafted Networks”

アジェンダ • 画像計測モデル • 様々な画像データ • 様々なのデータセットでの統一的な学習方法の提案（当該論文） • Learning to

光計測モデル参考文献：田中法博,望月宏祐,林一成,合津正史,禹在勇,”マルチバンドカメラを用いた分光ベースの反射モデル推定”,情報処理学会研究報告グラフィクスと CAD (CG) 135,2009,Vol.3,pp1-6 波長 λ ρ＝C ⊗

光は電磁波の仲間・波の仲間音波

電磁波・音波による画像（2次元配列強度情報） SAR（合成開口レーダー）Lバンド（1〜2GHz）、 Cバンド(4〜 8GHz)、Xバンド(8〜12GHz) http://syntheticapertureradar.com/very-high- resolution-sar-images/#prettyPhoto[gal_2]/2/ THｚ Image https://www.acq.o

問題提起１ • 目的：人を検知 • 条件：昼間 • 使用画像：可視画像 • 中間情報： •

参照論文：http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画：https://www.youtube.com/watch?v=sUqFM4xCZHI 接ぎ木ネットワークを用いた複数の視覚モダリティに対する学習法 The Institute of Neuroinformatics in Zurich, （the

補足：イベントカメラ • Event-based Camera • 輝度の変化が生じたピクセル毎に、画像としてではなく（画素Ｘ,画素Ｙ,輝度変化が生じた時間）を出力する2次元のイメージセンサ • 高速撮影可能（1000FPS以上）

本論文の貢献 1. Grafted Network(GN；接ぎ木ネットワーク) を新しい学習方法であるNGA（ Network Grafting Algorithm）を提案

接ぎ木生育（学習）参考資料：竹内園芸「接ぎ木苗」

Network Grafting Algorithm 参考資料：竹内園芸「接ぎ木苗」生育（学習）床人同時に撮影したデータセット

遠赤外線画像での物体検出（車）結果参照論文：http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画：https://www.youtube.com/watch?v=sUqFM4xCZHI The dataset has 4,855 training intensity-thermal pairs,

参照論文：http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画：https://www.youtube.com/watch?v=sUqFM4xCZHI イベントカメラ画像での物体検出（車）結果 We generated in total 7,000 intensity frames

Ablation Study on Loss Terms 参照論文：http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画：https://www.youtube.com/watch?v=sUqFM4xCZHI

まとめとおまけ 1. Grafted Network(GN；接ぎ木ネットワーク) を新しい学習方法であるNGA（ Network Grafting Algorithm）を提案 2. 学習省力化