Slide 1

Slide 1 text

2024/11/16 セーフィー株式会社 AI Vision グループ 橋本 貴博 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 Minimalist Vision with Freeform Pixels

Slide 2

Slide 2 text

2 © Safie Inc.| ⾃⼰紹介 略歴 2021〜   セーフィー株式会社 テックリードエンジニア 2013〜2021 三菱電機株式会社 情報技術総合研究所 リサーチエンジニア 2019〜2020 トロント⼤学 Electrical and Computer Engineering 客員研究員 X @hsmtta Qiita @hsmtta GitHub @hsmtta Instagram @hsmtta_cat Instagram @gotandadegohanda Find Me LinkedIn @hsmtta

Slide 3

Slide 3 text

3 © Safie Inc.| 紹介論⽂ ● Minimalist Vision with Freeform Pixels [Best Paper Award] ○ 著者: J. Klotz and S.K. Nayar ○ 所属: The Columbia Imaging and Vision Laboratory (CAVE)、コロンビア⼤学 ● 画像認識のタスクを解くために最⼩限のピクセルを備えたカメラを製作 ● 不要なセンサや推論処理を省き、低消費電⼒で動作

Slide 4

Slide 4 text

4 © Safie Inc.| Why Minimalist Vision? ● Lightweight tasks ○ シーンの統計情報を出⼒するタスク ○ 例)部屋の利⽤状況、道路交通の状況、照明の点灯 ○ 物体認識、オプティカルフロー、三次元復元などの⾼レベルの認識は必要ない ● 従来の画像認識システム ○ センサが画像を取得し、画像を⼊⼒として処理を⾏う ○ 不要な情報を取得し、処理しているため、消費電⼒が⼤きい ● 著者らの問い ○ 与えられたタスクにおいて、所望の性能を得るための、最⼩の測定回数は? ○ それらの測定を⾏うカメラをどのように構成すれば良いか?

Slide 5

Slide 5 text

5 © Safie Inc.| 装置構成:研究室における動作の⼀例 ● 4つのタスクにおいて、それぞれ2ピクセルを測定 ○ ⼈数‧机の利⽤‧ソファの利⽤‧ドアの開閉 ● Freeform Pixels による測定値が、ネットワークに⼊⼒される ● 試作機は学習⽤のカメラと Freeform Pixel を最⼤24つ備えている

Slide 6

Slide 6 text

6 © Safie Inc.| Freeform Pixels ● 従来のピクセルは、シーンのある⽅向からの光を検出 ● Freeform Pixel は、シーン全体の光を任意透過率のマスクに通したものを検出 ● マスク座標 (𝑥, 𝑦)、光の強度 𝐼、透過率 𝑀として、電⼒ 𝑝 ● Receptive Field がシーン全体の1層のニューラルネットとみなせる

Slide 7

Slide 7 text

7 © Safie Inc.| Sensor Model ● 実際のセンサの特性をモデル化しないと正しく学習できない ○ 検出器の指向性𝑑 : 光の⽅向によって検出器の効率が異なる ○ ブラーのカーネル𝑏 : 検出器は有限の⼤きさを持つ ● 検出器の出⼒

Slide 8

Slide 8 text

8 © Safie Inc.| Sensor Model ● 現実のA/D 変換を模擬することで、マスクの透過率が上昇する効果 ○ 検出器のゲイン 𝐺 ○ 読みだしノイズ 𝑛𝑟: Gaussian ノイズ ○ 量⼦化ノイズ 𝑛𝑞 : 量⼦化幅に⽐例 ○ 飽和 : 有限のダイナミックレンジ

Slide 9

Slide 9 text

9 © Safie Inc.| A Toy Example ● 合成画像に対してパッチの数を数えるタスク ● # pixels = 4 の場合のマスクの学習結果 ● 従来カメラの1024 pixels と 提案法の 4 pixels が同等の RMSE ○ 隠れ層は同じで、⼊⼒のpixelを⼊れ替えた対照実験

Slide 10

Slide 10 text

10 © Safie Inc.| Camera Architecture ● 製作に使⽤した部品の型番が公開されている ● マスクは透明なパネルにインクジェットプリンタで印刷 ● BLEモジュールが付いており検出結果を30FPSで無線伝送 ● 側⾯のソーラーパネルで⾃⼰給電 ○ 最⼤発電量: 150 mW x 4 = 600mW。従来カメラ(数Wオーダー)より低電⼒

Slide 11

Slide 11 text

11 © Safie Inc.| Experiments: Workspace Monitoring ● 研究室モニタリングの実験詳細 ● ⼈数推定で、従来カメラの4096 pixels と、提案の 2 pixels のRMSEが同等 (= 0.7) ● 試作機の 2 pixels は 1.16 RMSE で、シミュレーションよりやや増加

Slide 12

Slide 12 text

12 © Safie Inc.| Experiments: Room Lighting Estimation ● 3つのペンダントライトと、2つの蛍光灯の点灯状態を推定するタスク ○ シーンは俯瞰視点で、GTは天井向きのカメラで撮影 ● 従来カメラの144 pixels と、提案の 16 pixels が同等の accuracy

Slide 13

Slide 13 text

13 © Safie Inc.| Experiments: Traffic Monitoring ● 交通の平均速度を推定するタスク ● 1秒間の測定履歴を⼊⼒ ● 従来カメラの112 pixels と、提案の 16 pixels が同等のRMSE (= 2.3 MPH)

Slide 14

Slide 14 text

14 © Safie Inc.| Discussion ● マスクは液晶などで電⼦的に切り替えることができる ○ 物理的に抜き差ししなくても良い ○ 複数のタスクに時間分割で対応できる ● ⼀般のニューラルネットを光学系に置き換えることに興味がある ○ ニューラルネットの畳み込みをレンズで実現できる?

Slide 15

Slide 15 text

15 © Safie Inc.| おわりに 所感 ● ニューラルネットの計算を光学系で実現することで、従来の計算量のスケーリン グから脱却しているのが⾯⽩い ● もし弊社で使うとすると ○ NPUを搭載すると熱設計で苦労することが多い。低消費電⼒は魅⼒的 ○ Lightweight Vision でトリガーして必要なところだけ録画

Slide 16

Slide 16 text

No content