Retina-Like Visual Image Reconstruction via Spiking Neural Model

Retina-Like Visual Image Reconstruction via Spiking Neural Model 第三回全日本コンピュータビジョン勉強会（後編）
2020.07.18 Tres

自己紹介 • 経歴 • ~2011.3 :名古屋大学ー素粒子宇宙 • ~2016.3 :光学機器メーカー開発職(光学設計）
• 2016.4~ :同社研究センター立ち上げメンバー（光学設計から画像処理まで） • 今回初発表 • 専門分野：光の物理 • 光学設計者の視点から何か貢献できればと思い参加を決めた • 視点がハードウェア（センサー・現象）の側面から深堀りしていきます • ハードウェア（電子回路）・ソフトウェアの面では勉強させてください趣味は旅行（特に島）

紹介する論文 • Retina-Like Visual Image Reconstruction via Spiking Neural Model
• 選んだ理由 • 網膜について興味があった • 自分の知識が活かせる方面の話が入っていると嬉しかった

関連研究 • A Retina-Inspired sampling method for visual texture reconstruction(2019)
• 使用するセンサー（とデータ形式）が上記論文を前提にしているため、 • センサーについて • (SNNによる)画像の再構成についての順に説明します

問題設定 • ダイナミックなシーンで高品質な静止画を取得したい。

センサーについて

従来手法（センサー） • （普通の）カメラ • 通常数十fps、早くても1000fps程度 • ダイナミックレンジが狭い • 早くしても画像の容量は変わらないので重い（暗いピクセルも明るいピクセルも同じだけの容量を食う）
• Dynamic vision • ~300MHz • ダイナミックレンジは自由に取れる • Eventだけなので、明るいピクセルのデータだけで軽い • 結局動くものは暗い

提案手法 • SPIKE • 視細胞の光応答を模倣したセンサー • 各視細胞が一定値以上のシグナル（フォトン）を受け取ると励起されパルスを発する • 非同期データ
• 250x400px 40000fps相当

contribution 1. より生物妥当性の高いメカニズムに基づいた三層のSNNを提案し、高速な動きのあるシーンの静止画を再構成できるようになった。 2. 動的・静的なニューロンの状態を区別するインクリメンタルな手法を提案した 3. 画像の再構成方法を検討し発表した
網膜神経（視神経）の信号を模倣したSPIKEカメラから出てくる信号をANN（人工ニューラルネット）より生物妥当性が高い SNNによって処理し画像の再構築を高性能化（速度）した。

光の物理について • 光の放出はポワソン過程 • 単位時間あたりの光子の飛来数Nは分散√Nだけ揺らぐ • ノイズとは言うものの、実際に揺らいでるので回路側の工夫では取り除けない • 平滑化などはある意味でのビニングにより複数ピクセルの統計量をま
とめSNR=N/√Nを大きくする処理→しかし解像度が犠牲に • 測光などでは明暗に関わらず一定の十分な統計量になるまで露出するが、これは単一ピクセル • カメラは全領域を同期しているため、ピクセルごとに好き勝手に露出を調整できない

暗いシーンでの画像劣化について • 低照度下では、ノイズの一番の要因は光ショットノイズ（統計ゆらぎ） • そのため感度・F値・露出時間で光子統計を稼ぐ • 感度とF値には上限がある •
一方で動的シーンをブレなく撮るためには露出を短くする必要がある • 結果的に明るさとブレとのトレードオフになる • しかし人間の目では動体が暗くならない画像はHypebola optics様より

光物理から見るSpike • ピクセルに蓄積された電子（光子イベント）がある閾値以上になるったとき信号を発生させる →（暗い領域を）いくら露光しても明るい領域が飽和しにくい →ハイダイナミックレンジ • 非同期 →ピクセルごとに露出を調整できる →（センサーとして）統計的に有利！ノイズが少ない
→時間ごとに光子の飛来を見ることができるので動体を追える

SPIKEのデータ形式(1)

SPIKEのデータ形式(2) Raw image

ネットワークについて

本ケースにSNNを使う意義 • 非同期で処理を行い低転送・低消費電力・高ダイナミックレンジ • 網膜付近で色空間の変換や簡単なエッジ処理等を行っているので、センサーをネットワークに組み込むのはより生物妥当性が高い。 • 眼の発生は脳から突出した脳細胞が変化していくものであり、「目は単一のセンサーというよりも、脳が飛び出てきたもの」とも言及される画像は理研より

SNNの特徴 • 信号をスパイクで表現 • 一定のしきい値以上の入力があるとスパイクを出力 • ANNはこの期待値を伝搬しているとみなせる • 反応後は不応期と呼ばれる反応しない時間帯が発生する •
Anodal break excitationと呼ばれる入力がなくても反応する現象がある • 反応の仕方に種類がある（Class I,II）

SNNモデルの種類 • Conductance-based model (Hodgkin-Huxley Model等) • 神経細胞内外のイオン濃度に着目したモデル • 計算コスト高い
• LIF(leaky integrate and fire) model • 振る舞いだけを模倣した簡便なモデル • Class II・Anodal break excitationも表現できない • 計算コストは低い • 定性的 model(FitzHugh-Nagumo, Izhikevich,DSSN等) • Conductance-based modelを単純化したモデル • 不応期もanodal break excitationもclass IIも表現できる画像はT.Kohno “signal transmittion in neurons” 2011より

センサーについて

従来手法（センサーに付随する部分） • 網膜をシミュレートした演算器作成の試みはすでにいくつかある（例：An Analogue VLSI Intelligent sensor inspired by
the retina https://www.jstage.jst.go.jp/article/jjspe/7 9/11/79_999/_pdf 等） • 実際、視細胞には視神経から出るまでに３層ほどのニューロンがついている • また、この細胞以外に横方向の情報を伝える水平細胞・アマクリン細胞というのもある。（エッジ検出などをしているか考えられている）（左図は谷アイクリニック様より引用）

ネットワーク概形 • 第一の層では信号を作り出す • 第二の層ではノイズなどを取り除き信号を綺麗にする • 第三の層ではmotion confidenceに基づいて画像を再構成

Motion local excitation layer • 入力のスパイクデータに基づいてスパイクを出力する • 動的・静的ニューロン
を区別 • Motion confidence matrixとしてモデル化して、前後の時間的関連性を紐付ける

Motion local excitation layer ポワソン過程を仮定してN>>1のときに ISIの分布はガウシアンに近似するとみなす Ising modelでエネルギーを記述できる (Stan Z
Li 2009.)

Spike refining layer • この層にLIFが導入される • 前の層とは１対１対応で接続されている • LIFの特性によってノイズ・過剰露光を緩和（不応期等） •
シナプス結合はSTDP

Visual Reconstruction Layer

比較している手法について TFI ISI（信号の間隔）を明るさとして再構成する TFA 閾値が変化するニューロンの反応に基づく再構成 TFW 移動平均を明るさとして再構成（前論文の TFP）

他のDynamic vision sensorとの比較

感想 • 低照度・高ダイナミックレンジについて有利な仕組みが生体においてどのように働いているのかがわかり勉強になった。 • 生体埋め込みデバイスとの違いはなんだろう？応用可能か？ • SNNの内部処理についてもっと勉強したい

Retina-Like Visual Image Reconstruction via Spi...

Retina-Like Visual Image Reconstruction via Spiking Neural Model

tres

Other Decks in Technology

Featured

Transcript