Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Retina-Like Visual Image Reconstruction via Spiking Neural Model
Search
tres
July 18, 2020
Technology
2
620
Retina-Like Visual Image Reconstruction via Spiking Neural Model
CVPR2020の "Retina-Like Visual Image Reconstruction via Spiking Neural Model"の現象を中心にした紹介
tres
July 18, 2020
Tweet
Share
Other Decks in Technology
See All in Technology
反実仮想機械学習とは何か
usaito
PRO
11
4.3k
Next'24 事例セッションの紹介とクラウド資格を活用したキャリア形成について語りMuscle
yasumuusan
1
440
Terraformあれやこれ/terraform-this-and-that
emiki
8
1.4k
テストプロセスで大事にしていること #jasstnano
makky_tyuyan
0
170
複雑な構成要素を持つUIとの向き合い方 〜新・支出グラフでの実例〜 / B43 TECH TALK
nakamuuu
0
140
データベース02: データベースの概念
trycycle
0
150
コードを書く隙間を見つけて生きていく技術/Findy 思考の現在地
fujiwara3
27
5.9k
AOAI をきっかけに 社内の Azure 管理を見直した話
recruitengineers
PRO
1
270
プロトタイピングによる不確実性の低減 / Reducing Uncertainty through Prototyping
ohbarye
5
380
EMとして2023年度に頑張ったこと / What we did well in FY2023 as a EM
pauli
1
160
NgRx Signal Store
rainerhahnekamp
0
150
20240418_Google ColabにLLMが搭載されたようなのでPython x データ分析の勉強方法を考えてみる
doradora09
0
130
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
14
1.5k
ParisWeb 2013: Learning to Love: Crash Course in Emotional UX Design
dotmariusz
104
6.6k
Clear Off the Table
cherdarchuk
84
310k
The Straight Up "How To Draw Better" Workshop
denniskardys
227
130k
Fashionably flexible responsive web design (full day workshop)
malarkey
398
65k
Raft: Consensus for Rubyists
vanstee
132
6.3k
Atom: Resistance is Futile
akmur
259
25k
The Art of Programming - Codeland 2020
erikaheidi
42
12k
Designing the Hi-DPI Web
ddemaree
276
33k
KATA
mclloyd
15
12k
Making Projects Easy
brettharned
108
5.5k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
17
1.4k
Transcript
Retina-Like Visual Image Reconstruction via Spiking Neural Model 第三回 全日本コンピュータビジョン勉強会(後編)
2020.07.18 Tres
自己紹介 • 経歴 • ~2011.3 :名古屋大学ー素粒子宇宙 • ~2016.3 :光学機器メーカー 開発職(光学設計)
• 2016.4~ :同社研究センター立ち上げメンバー (光学設計から画像処理まで) • 今回初発表 • 専門分野:光の物理 • 光学設計者の視点から何か貢献できればと思い参加を決めた • 視点がハードウェア(センサー・現象)の側面から深堀りしていきます • ハードウェア(電子回路)・ソフトウェアの面では勉強させてください 趣味は旅行(特に島)
紹介する論文 • Retina-Like Visual Image Reconstruction via Spiking Neural Model
• 選んだ理由 • 網膜について興味があった • 自分の知識が活かせる方面の話が入っていると嬉しかった
関連研究 • A Retina-Inspired sampling method for visual texture reconstruction(2019)
• 使用するセンサー(とデータ形式)が上記論文を前提にしてい るため、 • センサーについて • (SNNによる)画像の再構成について の順に説明します
問題設定 • ダイナミックなシーンで高品質な静止画を取得したい。
センサーについて
従来手法(センサー) • (普通の)カメラ • 通常数十fps、早くても1000fps程度 • ダイナミックレンジが狭い • 早くしても画像の容量は変わらないので重い(暗いピクセルも明るい ピクセルも同じだけの容量を食う)
• Dynamic vision • ~300MHz • ダイナミックレンジは自由に取れる • Eventだけなので、明るいピクセルのデータだけで軽い • 結局動くものは暗い
提案手法 • SPIKE • 視細胞の光応答を模倣したセンサー • 各視細胞が一定値以上のシグナル(フォトン)を受け取ると励起され パルスを発する • 非同期データ
• 250x400px 40000fps相当
contribution 1. より生物妥当性の高いメカニズムに基づいた三層のSNNを提 案し、高速な動きのあるシーンの静止画を再構成できるよう になった。 2. 動的・静的なニューロンの状態を区別するインクリメンタル な手法を提案した 3. 画像の再構成方法を検討し発表した
網膜神経(視神経)の信号を模倣したSPIKEカメラから出てくる 信号をANN(人工ニューラルネット)より生物妥当性が高い SNNによって処理し画像の再構築を高性能化(速度)した。
光の物理について • 光の放出はポワソン過程 • 単位時間あたりの光子の飛来数Nは分散√Nだけ揺らぐ • ノイズとは言うものの、実際に揺らいでるので回路側の工夫では取り 除けない • 平滑化などはある意味でのビニングにより複数ピクセルの統計量をま
とめSNR=N/√Nを大きくする処理→しかし解像度が犠牲に • 測光などでは明暗に関わらず一定の十分な統計量になるまで露 出するが、これは単一ピクセル • カメラは全領域を同期しているため、ピクセルごとに好き勝手に露出 を調整できない
暗いシーンでの画像劣化について • 低照度下では、ノイズの一番の要因は光 ショットノイズ(統計ゆらぎ) • そのため感度・F値・露出時間で光子統計 を稼ぐ • 感度とF値には上限がある •
一方で動的シーンをブレなく撮るためには 露出を短くする必要がある • 結果的に明るさとブレとのトレードオフに なる • しかし人間の目では動体が暗くならない 画像はHypebola optics様より
光物理から見るSpike • ピクセルに蓄積された電子(光子イベント)がある閾値以上に なるったとき信号を発生させる →(暗い領域を)いくら露光しても明るい領域が飽和しにくい →ハイダイナミックレンジ • 非同期 →ピクセルごとに露出を調整できる →(センサーとして)統計的に有利!ノイズが少ない
→時間ごとに光子の飛来を見ることができるので動体を追える
SPIKEのデータ形式(1)
SPIKEのデータ形式(2) Raw image
ネットワークについて
本ケースにSNNを使う意義 • 非同期で処理を行い低転送・低消費電力・高ダイナミックレンジ • 網膜付近で色空間の変換や簡単なエッジ処理等を行っているので、 センサーをネットワークに組み込むのはより生物妥当性が高い。 • 眼の発生は脳から突出した脳細胞が変化していくものであり、「目は単一の センサーというよりも、脳が飛び出てきたもの」とも言及される 画像は理研より
SNNの特徴 • 信号をスパイクで表現 • 一定のしきい値以上の入力があるとスパイクを出力 • ANNはこの期待値を伝搬しているとみなせる • 反応後は不応期と呼ばれる反応しない時間帯が発生する •
Anodal break excitationと呼ばれる入力がなくても反応する現 象がある • 反応の仕方に種類がある(Class I,II)
SNNモデルの種類 • Conductance-based model (Hodgkin-Huxley Model等) • 神経細胞内外のイオン濃度に着目したモデル • 計算コスト高い
• LIF(leaky integrate and fire) model • 振る舞いだけを模倣した簡便なモデル • Class II・Anodal break excitationも表現できない • 計算コストは低い • 定性的 model(FitzHugh-Nagumo, Izhikevich,DSSN等) • Conductance-based modelを単純化したモデル • 不応期もanodal break excitationもclass IIも表現できる 画像はT.Kohno “signal transmittion in neurons” 2011より
センサーについて
従来手法(センサーに付随する部分) • 網膜をシミュレートした演算器作成の試みは すでにいくつかある(例:An Analogue VLSI Intelligent sensor inspired by
the retina https://www.jstage.jst.go.jp/article/jjspe/7 9/11/79_999/_pdf 等) • 実際、視細胞には視神経から出るまでに3層 ほどのニューロンがついている • また、この細胞以外に横方向の情報を伝える水平 細胞・アマクリン細胞というのもある。(エッジ 検出などをしているか考えられている) (左図は谷アイクリニック様より引用)
ネットワーク概形 • 第一の層では信号を作り出す • 第二の層ではノイズなどを取り除き信号を綺麗にする • 第三の層ではmotion confidenceに基づいて画像を再構成
Motion local excitation layer • 入力のスパイクデータ に基づいてスパイクを 出力する • 動的・静的ニューロン
を区別 • Motion confidence matrixとしてモデル化 して、前後の時間的関 連性を紐付ける
Motion local excitation layer ポワソン過程を仮定してN>>1のときに ISIの分布はガウシアンに近似するとみなす Ising modelでエネルギーを記述できる (Stan Z
Li 2009.)
Spike refining layer • この層にLIFが導入される • 前の層とは1対1対応で接続されている • LIFの特性によってノイズ・過剰露光を緩和(不応期等) •
シナプス結合はSTDP
Visual Reconstruction Layer
比較している手法について TFI ISI(信号の間隔)を明るさとして再構成する TFA 閾値が変化するニューロンの反応に基づく再 構成 TFW 移動平均を明るさとして再構成(前論文の TFP)
None
None
None
他のDynamic vision sensorとの比較
感想 • 低照度・高ダイナミックレンジについて有利な仕組みが生体に おいてどのように働いているのかがわかり勉強になった。 • 生体埋め込みデバイスとの違いはなんだろう?応用可能か? • SNNの内部処理についてもっと勉強したい