Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Retina-Like Visual Image Reconstruction via Spi...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
tres
July 18, 2020
Technology
2
750
Retina-Like Visual Image Reconstruction via Spiking Neural Model
CVPR2020の "Retina-Like Visual Image Reconstruction via Spiking Neural Model"の現象を中心にした紹介
tres
July 18, 2020
Tweet
Share
Other Decks in Technology
See All in Technology
GitHub Issue Templates + Coding Agentで簡単みんなでIaC/Easy IaC for Everyone with GitHub Issue Templates + Coding Agent
aeonpeople
1
260
Oracle AI Database移行・アップグレード勉強会 - RAT活用編
oracle4engineer
PRO
0
110
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
10k
Red Hat OpenStack Services on OpenShift
tamemiya
0
130
生成AIを活用した音声文字起こしシステムの2つの構築パターンについて
miu_crescent
PRO
3
220
コミュニティが変えるキャリアの地平線:コロナ禍新卒入社のエンジニアがAWSコミュニティで見つけた成長の羅針盤
kentosuzuki
0
130
量子クラウドサービスの裏側 〜Deep Dive into OQTOPUS〜
oqtopus
0
150
こんなところでも(地味に)活躍するImage Modeさんを知ってるかい?- Image Mode for OpenShift -
tsukaman
1
170
30万人の同時アクセスに耐えたい!新サービスの盤石なリリースを支える負荷試験 / SRE Kaigi 2026
genda
4
1.4k
10Xにおける品質保証活動の全体像と改善 #no_more_wait_for_test
nihonbuson
PRO
2
330
pool.ntp.orgに ⾃宅サーバーで 参加してみたら...
tanyorg
0
590
Embedded SREの終わりを設計する 「なんとなく」から計画的な自立支援へ
sansantech
PRO
3
2.6k
Featured
See All Featured
Docker and Python
trallard
47
3.7k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
190
Become a Pro
speakerdeck
PRO
31
5.8k
From π to Pie charts
rasagy
0
130
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
66
37k
Context Engineering - Making Every Token Count
addyosmani
9
670
Six Lessons from altMBA
skipperchong
29
4.2k
Optimising Largest Contentful Paint
csswizardry
37
3.6k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.7k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
250
WENDY [Excerpt]
tessaabrams
9
36k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
67
Transcript
Retina-Like Visual Image Reconstruction via Spiking Neural Model 第三回 全日本コンピュータビジョン勉強会(後編)
2020.07.18 Tres
自己紹介 • 経歴 • ~2011.3 :名古屋大学ー素粒子宇宙 • ~2016.3 :光学機器メーカー 開発職(光学設計)
• 2016.4~ :同社研究センター立ち上げメンバー (光学設計から画像処理まで) • 今回初発表 • 専門分野:光の物理 • 光学設計者の視点から何か貢献できればと思い参加を決めた • 視点がハードウェア(センサー・現象)の側面から深堀りしていきます • ハードウェア(電子回路)・ソフトウェアの面では勉強させてください 趣味は旅行(特に島)
紹介する論文 • Retina-Like Visual Image Reconstruction via Spiking Neural Model
• 選んだ理由 • 網膜について興味があった • 自分の知識が活かせる方面の話が入っていると嬉しかった
関連研究 • A Retina-Inspired sampling method for visual texture reconstruction(2019)
• 使用するセンサー(とデータ形式)が上記論文を前提にしてい るため、 • センサーについて • (SNNによる)画像の再構成について の順に説明します
問題設定 • ダイナミックなシーンで高品質な静止画を取得したい。
センサーについて
従来手法(センサー) • (普通の)カメラ • 通常数十fps、早くても1000fps程度 • ダイナミックレンジが狭い • 早くしても画像の容量は変わらないので重い(暗いピクセルも明るい ピクセルも同じだけの容量を食う)
• Dynamic vision • ~300MHz • ダイナミックレンジは自由に取れる • Eventだけなので、明るいピクセルのデータだけで軽い • 結局動くものは暗い
提案手法 • SPIKE • 視細胞の光応答を模倣したセンサー • 各視細胞が一定値以上のシグナル(フォトン)を受け取ると励起され パルスを発する • 非同期データ
• 250x400px 40000fps相当
contribution 1. より生物妥当性の高いメカニズムに基づいた三層のSNNを提 案し、高速な動きのあるシーンの静止画を再構成できるよう になった。 2. 動的・静的なニューロンの状態を区別するインクリメンタル な手法を提案した 3. 画像の再構成方法を検討し発表した
網膜神経(視神経)の信号を模倣したSPIKEカメラから出てくる 信号をANN(人工ニューラルネット)より生物妥当性が高い SNNによって処理し画像の再構築を高性能化(速度)した。
光の物理について • 光の放出はポワソン過程 • 単位時間あたりの光子の飛来数Nは分散√Nだけ揺らぐ • ノイズとは言うものの、実際に揺らいでるので回路側の工夫では取り 除けない • 平滑化などはある意味でのビニングにより複数ピクセルの統計量をま
とめSNR=N/√Nを大きくする処理→しかし解像度が犠牲に • 測光などでは明暗に関わらず一定の十分な統計量になるまで露 出するが、これは単一ピクセル • カメラは全領域を同期しているため、ピクセルごとに好き勝手に露出 を調整できない
暗いシーンでの画像劣化について • 低照度下では、ノイズの一番の要因は光 ショットノイズ(統計ゆらぎ) • そのため感度・F値・露出時間で光子統計 を稼ぐ • 感度とF値には上限がある •
一方で動的シーンをブレなく撮るためには 露出を短くする必要がある • 結果的に明るさとブレとのトレードオフに なる • しかし人間の目では動体が暗くならない 画像はHypebola optics様より
光物理から見るSpike • ピクセルに蓄積された電子(光子イベント)がある閾値以上に なるったとき信号を発生させる →(暗い領域を)いくら露光しても明るい領域が飽和しにくい →ハイダイナミックレンジ • 非同期 →ピクセルごとに露出を調整できる →(センサーとして)統計的に有利!ノイズが少ない
→時間ごとに光子の飛来を見ることができるので動体を追える
SPIKEのデータ形式(1)
SPIKEのデータ形式(2) Raw image
ネットワークについて
本ケースにSNNを使う意義 • 非同期で処理を行い低転送・低消費電力・高ダイナミックレンジ • 網膜付近で色空間の変換や簡単なエッジ処理等を行っているので、 センサーをネットワークに組み込むのはより生物妥当性が高い。 • 眼の発生は脳から突出した脳細胞が変化していくものであり、「目は単一の センサーというよりも、脳が飛び出てきたもの」とも言及される 画像は理研より
SNNの特徴 • 信号をスパイクで表現 • 一定のしきい値以上の入力があるとスパイクを出力 • ANNはこの期待値を伝搬しているとみなせる • 反応後は不応期と呼ばれる反応しない時間帯が発生する •
Anodal break excitationと呼ばれる入力がなくても反応する現 象がある • 反応の仕方に種類がある(Class I,II)
SNNモデルの種類 • Conductance-based model (Hodgkin-Huxley Model等) • 神経細胞内外のイオン濃度に着目したモデル • 計算コスト高い
• LIF(leaky integrate and fire) model • 振る舞いだけを模倣した簡便なモデル • Class II・Anodal break excitationも表現できない • 計算コストは低い • 定性的 model(FitzHugh-Nagumo, Izhikevich,DSSN等) • Conductance-based modelを単純化したモデル • 不応期もanodal break excitationもclass IIも表現できる 画像はT.Kohno “signal transmittion in neurons” 2011より
センサーについて
従来手法(センサーに付随する部分) • 網膜をシミュレートした演算器作成の試みは すでにいくつかある(例:An Analogue VLSI Intelligent sensor inspired by
the retina https://www.jstage.jst.go.jp/article/jjspe/7 9/11/79_999/_pdf 等) • 実際、視細胞には視神経から出るまでに3層 ほどのニューロンがついている • また、この細胞以外に横方向の情報を伝える水平 細胞・アマクリン細胞というのもある。(エッジ 検出などをしているか考えられている) (左図は谷アイクリニック様より引用)
ネットワーク概形 • 第一の層では信号を作り出す • 第二の層ではノイズなどを取り除き信号を綺麗にする • 第三の層ではmotion confidenceに基づいて画像を再構成
Motion local excitation layer • 入力のスパイクデータ に基づいてスパイクを 出力する • 動的・静的ニューロン
を区別 • Motion confidence matrixとしてモデル化 して、前後の時間的関 連性を紐付ける
Motion local excitation layer ポワソン過程を仮定してN>>1のときに ISIの分布はガウシアンに近似するとみなす Ising modelでエネルギーを記述できる (Stan Z
Li 2009.)
Spike refining layer • この層にLIFが導入される • 前の層とは1対1対応で接続されている • LIFの特性によってノイズ・過剰露光を緩和(不応期等) •
シナプス結合はSTDP
Visual Reconstruction Layer
比較している手法について TFI ISI(信号の間隔)を明るさとして再構成する TFA 閾値が変化するニューロンの反応に基づく再 構成 TFW 移動平均を明るさとして再構成(前論文の TFP)
None
None
None
他のDynamic vision sensorとの比較
感想 • 低照度・高ダイナミックレンジについて有利な仕組みが生体に おいてどのように働いているのかがわかり勉強になった。 • 生体埋め込みデバイスとの違いはなんだろう?応用可能か? • SNNの内部処理についてもっと勉強したい