Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Retina-Like Visual Image Reconstruction via Spi...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
tres
July 18, 2020
Technology
2
750
Retina-Like Visual Image Reconstruction via Spiking Neural Model
CVPR2020の "Retina-Like Visual Image Reconstruction via Spiking Neural Model"の現象を中心にした紹介
tres
July 18, 2020
Tweet
Share
Other Decks in Technology
See All in Technology
今こそ学びたいKubernetesネットワーク ~CNIが繋ぐNWとプラットフォームの「フラッと」な対話
logica0419
5
420
Agile Leadership Summit Keynote 2026
m_seki
1
670
Amazon Bedrock Knowledge Basesチャンキング解説!
aoinoguchi
0
160
プロポーザルに込める段取り八分
shoheimitani
1
640
Agent Skils
dip_tech
PRO
0
130
ECS障害を例に学ぶ、インシデント対応に備えたAIエージェントの育て方 / How to develop AI agents for incident response with ECS outage
iselegant
3
320
Embedded SREの終わりを設計する 「なんとなく」から計画的な自立支援へ
sansantech
PRO
3
2.6k
1,000 にも届く AWS Organizations 組織のポリシー運用をちゃんとしたい、という話
kazzpapa3
0
160
制約が導く迷わない設計 〜 信頼性と運用性を両立するマイナンバー管理システムの実践 〜
bwkw
3
1k
Red Hat OpenStack Services on OpenShift
tamemiya
0
130
22nd ACRi Webinar - NTT Kawahara-san's slide
nao_sumikawa
0
100
pool.ntp.orgに ⾃宅サーバーで 参加してみたら...
tanyorg
0
640
Featured
See All Featured
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.9k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
920
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
170
The browser strikes back
jonoalderson
0
420
Chasing Engaging Ingredients in Design
codingconduct
0
110
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
310
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Why Our Code Smells
bkeepers
PRO
340
58k
Designing for Timeless Needs
cassininazir
0
130
Done Done
chrislema
186
16k
Claude Code のすすめ
schroneko
67
210k
Transcript
Retina-Like Visual Image Reconstruction via Spiking Neural Model 第三回 全日本コンピュータビジョン勉強会(後編)
2020.07.18 Tres
自己紹介 • 経歴 • ~2011.3 :名古屋大学ー素粒子宇宙 • ~2016.3 :光学機器メーカー 開発職(光学設計)
• 2016.4~ :同社研究センター立ち上げメンバー (光学設計から画像処理まで) • 今回初発表 • 専門分野:光の物理 • 光学設計者の視点から何か貢献できればと思い参加を決めた • 視点がハードウェア(センサー・現象)の側面から深堀りしていきます • ハードウェア(電子回路)・ソフトウェアの面では勉強させてください 趣味は旅行(特に島)
紹介する論文 • Retina-Like Visual Image Reconstruction via Spiking Neural Model
• 選んだ理由 • 網膜について興味があった • 自分の知識が活かせる方面の話が入っていると嬉しかった
関連研究 • A Retina-Inspired sampling method for visual texture reconstruction(2019)
• 使用するセンサー(とデータ形式)が上記論文を前提にしてい るため、 • センサーについて • (SNNによる)画像の再構成について の順に説明します
問題設定 • ダイナミックなシーンで高品質な静止画を取得したい。
センサーについて
従来手法(センサー) • (普通の)カメラ • 通常数十fps、早くても1000fps程度 • ダイナミックレンジが狭い • 早くしても画像の容量は変わらないので重い(暗いピクセルも明るい ピクセルも同じだけの容量を食う)
• Dynamic vision • ~300MHz • ダイナミックレンジは自由に取れる • Eventだけなので、明るいピクセルのデータだけで軽い • 結局動くものは暗い
提案手法 • SPIKE • 視細胞の光応答を模倣したセンサー • 各視細胞が一定値以上のシグナル(フォトン)を受け取ると励起され パルスを発する • 非同期データ
• 250x400px 40000fps相当
contribution 1. より生物妥当性の高いメカニズムに基づいた三層のSNNを提 案し、高速な動きのあるシーンの静止画を再構成できるよう になった。 2. 動的・静的なニューロンの状態を区別するインクリメンタル な手法を提案した 3. 画像の再構成方法を検討し発表した
網膜神経(視神経)の信号を模倣したSPIKEカメラから出てくる 信号をANN(人工ニューラルネット)より生物妥当性が高い SNNによって処理し画像の再構築を高性能化(速度)した。
光の物理について • 光の放出はポワソン過程 • 単位時間あたりの光子の飛来数Nは分散√Nだけ揺らぐ • ノイズとは言うものの、実際に揺らいでるので回路側の工夫では取り 除けない • 平滑化などはある意味でのビニングにより複数ピクセルの統計量をま
とめSNR=N/√Nを大きくする処理→しかし解像度が犠牲に • 測光などでは明暗に関わらず一定の十分な統計量になるまで露 出するが、これは単一ピクセル • カメラは全領域を同期しているため、ピクセルごとに好き勝手に露出 を調整できない
暗いシーンでの画像劣化について • 低照度下では、ノイズの一番の要因は光 ショットノイズ(統計ゆらぎ) • そのため感度・F値・露出時間で光子統計 を稼ぐ • 感度とF値には上限がある •
一方で動的シーンをブレなく撮るためには 露出を短くする必要がある • 結果的に明るさとブレとのトレードオフに なる • しかし人間の目では動体が暗くならない 画像はHypebola optics様より
光物理から見るSpike • ピクセルに蓄積された電子(光子イベント)がある閾値以上に なるったとき信号を発生させる →(暗い領域を)いくら露光しても明るい領域が飽和しにくい →ハイダイナミックレンジ • 非同期 →ピクセルごとに露出を調整できる →(センサーとして)統計的に有利!ノイズが少ない
→時間ごとに光子の飛来を見ることができるので動体を追える
SPIKEのデータ形式(1)
SPIKEのデータ形式(2) Raw image
ネットワークについて
本ケースにSNNを使う意義 • 非同期で処理を行い低転送・低消費電力・高ダイナミックレンジ • 網膜付近で色空間の変換や簡単なエッジ処理等を行っているので、 センサーをネットワークに組み込むのはより生物妥当性が高い。 • 眼の発生は脳から突出した脳細胞が変化していくものであり、「目は単一の センサーというよりも、脳が飛び出てきたもの」とも言及される 画像は理研より
SNNの特徴 • 信号をスパイクで表現 • 一定のしきい値以上の入力があるとスパイクを出力 • ANNはこの期待値を伝搬しているとみなせる • 反応後は不応期と呼ばれる反応しない時間帯が発生する •
Anodal break excitationと呼ばれる入力がなくても反応する現 象がある • 反応の仕方に種類がある(Class I,II)
SNNモデルの種類 • Conductance-based model (Hodgkin-Huxley Model等) • 神経細胞内外のイオン濃度に着目したモデル • 計算コスト高い
• LIF(leaky integrate and fire) model • 振る舞いだけを模倣した簡便なモデル • Class II・Anodal break excitationも表現できない • 計算コストは低い • 定性的 model(FitzHugh-Nagumo, Izhikevich,DSSN等) • Conductance-based modelを単純化したモデル • 不応期もanodal break excitationもclass IIも表現できる 画像はT.Kohno “signal transmittion in neurons” 2011より
センサーについて
従来手法(センサーに付随する部分) • 網膜をシミュレートした演算器作成の試みは すでにいくつかある(例:An Analogue VLSI Intelligent sensor inspired by
the retina https://www.jstage.jst.go.jp/article/jjspe/7 9/11/79_999/_pdf 等) • 実際、視細胞には視神経から出るまでに3層 ほどのニューロンがついている • また、この細胞以外に横方向の情報を伝える水平 細胞・アマクリン細胞というのもある。(エッジ 検出などをしているか考えられている) (左図は谷アイクリニック様より引用)
ネットワーク概形 • 第一の層では信号を作り出す • 第二の層ではノイズなどを取り除き信号を綺麗にする • 第三の層ではmotion confidenceに基づいて画像を再構成
Motion local excitation layer • 入力のスパイクデータ に基づいてスパイクを 出力する • 動的・静的ニューロン
を区別 • Motion confidence matrixとしてモデル化 して、前後の時間的関 連性を紐付ける
Motion local excitation layer ポワソン過程を仮定してN>>1のときに ISIの分布はガウシアンに近似するとみなす Ising modelでエネルギーを記述できる (Stan Z
Li 2009.)
Spike refining layer • この層にLIFが導入される • 前の層とは1対1対応で接続されている • LIFの特性によってノイズ・過剰露光を緩和(不応期等) •
シナプス結合はSTDP
Visual Reconstruction Layer
比較している手法について TFI ISI(信号の間隔)を明るさとして再構成する TFA 閾値が変化するニューロンの反応に基づく再 構成 TFW 移動平均を明るさとして再構成(前論文の TFP)
None
None
None
他のDynamic vision sensorとの比較
感想 • 低照度・高ダイナミックレンジについて有利な仕組みが生体に おいてどのように働いているのかがわかり勉強になった。 • 生体埋め込みデバイスとの違いはなんだろう?応用可能か? • SNNの内部処理についてもっと勉強したい