Slide 1

Slide 1 text

“Learning to Exploit Multiple Vision Modalities by Using Grafted Networks” Hu Yuhuang, Tobi Delbruck, Shih-Chii Liu 第五回 全日本コンピュータビジョン勉強会 ECCV2020読み会 Godel @___Godel

Slide 2

Slide 2 text

アジェンダ • 画像計測モデル • 様々な画像データ • 様々なのデータセットでの統一的な学習方法の提案(当該論文) • Learning to Exploit Multiple Vision Modalities • Grafted Networks (接ぎ木ネットワーク)

Slide 3

Slide 3 text

光計測モデル 参考文献:田中法博,望月宏祐,林一成,合津正史,禹在勇,”マルチバンドカメラを用いた分光ベースの反射モデル推定”,情報処理学会 研究報告グラフィクスと CAD (CG) 135,2009,Vol.3,pp1-6 波長 λ ρ=C ⊗ ⊗ S ⊗ E(λ) 電磁波・音波の計測器は 分布関数の直積空間を捉 えている 波長 λを広く考える =電磁波・音波 計測モデルは同じ アナロジーで考えら れる

Slide 4

Slide 4 text

光は電磁波の仲間・波の仲間 音波

Slide 5

Slide 5 text

電磁波・音波による画像(2次元配列強度情報) SAR(合成開口レーダー)Lバンド (1〜2GHz)、 Cバンド(4〜 8GHz)、Xバンド(8〜12GHz) http://syntheticapertureradar.com/very-high- resolution-sar-images/#prettyPhoto[gal_2]/2/ THz Image https://www.acq.o sd.mil/ncbdp/nm/ pseag/capabilitya reas/P/LRTHzIR.ht ml Millimeter wave passive Image https://www.wikiwand.com/j a/%E3%83%9F%E3%83% AA%E6%B3%A2%E3%83 %91%E3%83%83%E3%8 2%B7%E3%83%96%E6%9 2%AE%E5%83%8F%E8%A 3%85%E7%BD%AE 音波 https://www.extremetech.co m/mobile/220598- qualcomms-new-fingerprint- sensor-uses-ultrasonic- waves-could-be-built-into- screens Ultra Sonic 3D Image(>20 KHz) https://www.simrad-yachting.com/sonar-and- transducers/structurescan-3d/ 3D Sonar Image(15KHz- 200KHz) https://www.m-satellite.jp/info/02.html MRI Image Delaunay, Pierre-Yves, et al. "Advances in III-V based dual-band MWIR/LWIR FPAs at HRL." Infrared Technology and Applications XLIII. Vol. 10177. International Society for Optics and Photonics, 2017. SWIR 可視(煙) LWIR https://2.bp.blogspot.com/-O- Z17hAnArw/VkNs4Dcl- wI/AAAAAAAAAQI/fR8tPiVVX5s/s1600/Pi cture6.png

Slide 6

Slide 6 text

問題提起1 • 目的:人を検知 • 条件:昼間 • 使用画像:可視画像 • 中間情報: • 物体検知(人) • セマンティックセグメンテー ション • 目的:人を検知 • 条件:高速移動体から検知 • 使用画像:イベントカメラ画像 • 中間情報: • イベントカメラ物体検知(人) • イベントカメラセマンティック セグメンテーション • 目的:人を検知 • 条件:昼間、照明の無い夜間 • 使用画像:LWIR • 中間情報: • LWIR物体検知(人) • LWIRセマンティックセグメン テーション • 目的:人を検知 • 条件:濃い霧、雲越し • 使用画像:SAR画像 • 中間情報: • SAR画像物体検知(人) • SAR画像セマンティックセグ メンテーション • 目的:人を検知 • 条件:水中 • 使用画像:3Dソナー画像 • 中間情報: • 3Dソナー物体検知(人) • 3Dソナーセマンティックセ グメンテーション Multiple Vision Modalitiesに対応したDNN を、効率よく構築(すなわち学習)すること ができないだろうか? • 同じ目的でも、計測条件により用いる 画像が異なる • 目的が同じなら、中間情報は同じと考 えてよい

Slide 7

Slide 7 text

参照論文:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画:https://www.youtube.com/watch?v=sUqFM4xCZHI Fisher,R.:CVonline:ImageDatabases(2020),http://homepages.inf.ed .ac.uk/rbf/CVonline/Imagedbase.htm • 様々なドメインと少ないデータセット ✓ 可視画像以外の公開されているデータセットの数は少ない ✓ 新たなドメインの画像を学習させるためには、膨大な量の画像データのアノテーションコストが発 生 → 様々なドメインにおいて少ない教示データで学習できないか? 問題提起2

Slide 8

Slide 8 text

参照論文:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画:https://www.youtube.com/watch?v=sUqFM4xCZHI 接ぎ木ネットワークを用いた複数の視覚モダリティに対する学習法 The Institute of Neuroinformatics in Zurich, (the University of Zurich and ETH Zurich共同研究所) センサグループ 博士課程学生 チューリッヒ工科大学教授 センサグループ Event Cameraの開発者 The Institute of Neuroinformaticsセンサグ ループリーダー 紹介論文

Slide 9

Slide 9 text

補足:イベントカメラ • Event-based Camera • 輝度の変化が生じたピクセル毎に、画像としてではなく (画素X,画素Y,輝度変化が生じた時間) を出力する2次元のイメージセンサ • 高速撮影可能(1000FPS以上) • 高ダイナミックレンジ(輝度変化や明暗が大きくても撮影可能) • IROS2013 WORKSHOP にて PROF.DAVIDE SCARAMUZZA(ETH)等が紹介し、研 究の中核となる。 • EVENT-BASED CAMERAは研究としては最盛期 • HTTP://RPG.IFI.UZH.CH/RESEARCH_DVS.HTML ( SCARAMUZZA研) • SSII2020チュートリアルセッション EVENT-BASED CAMERA の基礎とニューラルネット ワークによる信号処理 HTTPS://CONFIT.ATLAS.JP/GUIDE/EVENT/SSII2020/STATIC/LECTURENOTES • CVPR2020 WORKSHOP UNCONVENTIONAL SENSORS IN ROBOTICS: PERCEPTION FOR ONLINE LEARNING, ADAP-TIVE BEHAVIOR, AND COGNITION • PROFESEE(HTTPS://WWW.PROPHESEE.AI/BUY-EVENT-BASED-PRODUCTS-2/)がSONY と提携し商品開発 • 今後の課題 • 応用利用、実環境での利用 • SPIKING NEURAL NETWORKとの連携 https://gfycat.com/incredibleimpoliteblackmamba D. Falanga, S. Kim, D. Scaramuzza How Fast is Too Fast? The Role of Perception Latency in High-Speed Sense and Avoid IEEE Robotics and Automation Letters (RA-L), 2019.

Slide 10

Slide 10 text

本論文の貢献 1. Grafted Network(GN;接ぎ木ネットワーク) を新しい学 習方法であるNGA( Network Grafting Algorithm)を提 案 • GNの仕様 可視画像(モノクロ画像)以外の画像の画像処理(物体認識、深 度推定、セマンティックセグメンテーション、姿勢推定等)をする ネットワークの構築 本論文では、遠赤外線画像、イベントカメラ画像の物体認識につ いて実証 2. 遠赤外画像、イベントカメラ画像の教示データの必要な い自己教師学習(self-supervised Learning)の提案 3. 新たに訓練されたGNは、遠赤外画像、イベントカメラ 画像を直接処理するため、可視画像学習済ネットワー クと同様の推論コストに抑える 4. NGAは、可視カメラでは困難な状況下でも、2次元情報 を入力として画像処理を構築可能とする

Slide 11

Slide 11 text

接ぎ木 生育 (学習) 参考資料:竹内園芸「接ぎ木苗」

Slide 12

Slide 12 text

Network Grafting Algorithm 参考資料:竹内園芸「接ぎ木苗」 生育 (学習) 床 人 同時に撮影し たデータセット

Slide 13

Slide 13 text

参照論文:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画:https://www.youtube.com/watch?v=sUqFM4xCZHI 可視画像ドメイン イベントカメラ画像ドメイン 物体検出ドメイン (バウンディング ボックス) 中間情報1 ドメイン 中間情報2 ドメイン Network Grafting Algorithm 親のニューラルネットワーク 子のニューラルネットワーク 知 識 蒸 留 ( 親 の 知 を 子 へ 伝 播 ) ド メ イ ン 適 応 スタイル変換

Slide 14

Slide 14 text

遠赤外線画像での物体検出(車)結果 参照論文:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画:https://www.youtube.com/watch?v=sUqFM4xCZHI The dataset has 4,855 training intensity-thermal pairs, and 1,256 testing pairs, of which 60% are daytime and 40% arenighttime driving samples.

Slide 15

Slide 15 text

参照論文:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画:https://www.youtube.com/watch?v=sUqFM4xCZHI イベントカメラ画像での物体検出(車)結果 We generated in total 7,000 intensity frames and event volume pairsfrom this recording. Each event volume containsN= 25,000 events. The first5,000 pairs are used as the training dataset, and the last 2,000 pairs are usedas the testing dataset.

Slide 16

Slide 16 text

GNの性質 GNのfront end はどのくらいの層が必要か? ・入力するドメイン画像、出力するドメイン画像により変化する ・データセット依存もある 中間情報は、何を表しているか? ・必要な情報を含む画像情報となっている 参照論文:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画:https://www.youtube.com/watch?v=sUqFM4xCZHI

Slide 17

Slide 17 text

Ablation Study on Loss Terms 参照論文:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610086.pdf 参照動画:https://www.youtube.com/watch?v=sUqFM4xCZHI

Slide 18

Slide 18 text

まとめとおまけ 1. Grafted Network(GN;接ぎ木ネットワーク) を新しい学習方法であるNGA( Network Grafting Algorithm)を提案 2. 学習省力化 遠赤外画像、イベントカメラ画像の教示データの必要ない自己教師学習(SELF-SUPERVISED LEARNING)の提案 3. 推論コスト維持 新たに訓練されたGNは、遠赤外画像、イベントカメラ画像を直接処理するため、可視画像学習済ネットワークと同様の推論コストに抑える 4. 汎用性 NGAは、可視カメラでは困難な状況下でも、2次元情報を入力として画像処理を構築可能とする ボーナスビデオ:イベントカメラ画像の姿勢推定 (汎用性の実証)