Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Retina-Like Visual Image Reconstruction via Spi...
Search
tres
July 18, 2020
Technology
2
750
Retina-Like Visual Image Reconstruction via Spiking Neural Model
CVPR2020の "Retina-Like Visual Image Reconstruction via Spiking Neural Model"の現象を中心にした紹介
tres
July 18, 2020
Tweet
Share
Other Decks in Technology
See All in Technology
Claude Code Skills 勉強会 (DevelersIO向けに調整済み) / claude code skills for devio
masahirokawahara
1
22k
決済サービスを支えるElastic Cloud - Elastic Cloudの導入と推進、決済サービスのObservability
suzukij
2
660
楽しく学ぼう!ネットワーク入門
shotashiratori
1
460
AI駆動AI普及活動 ~ 社内AI活用の「何から始めれば?」をAIで突破する
oracle4engineer
PRO
1
110
"作る"から"使われる"へ:Backstage 活用の現在地
sbtechnight
0
180
Zeal of the Convert: Taming Shai-Hulud with AI
ramimac
0
150
めちゃくちゃ開発するQAエンジニアになって感じたメリットとこれからの課題感
ryuhei0000yamamoto
0
110
複数クラスタ運用と検索の高度化:ビズリーチにおけるElastic活用事例 / ElasticON Tokyo2026
visional_engineering_and_design
0
170
NewSQL_ ストレージ分離と分散合意を用いたスケーラブルアーキテクチャ
hacomono
PRO
4
380
バクラク最古参プロダクトで重ねた技術投資を振り返る
ypresto
0
170
ソフトバンク流!プラットフォームエンジニアリング実現へのアプローチ
sbtechnight
1
180
コンテキスト・ハーネスエンジニアリングの現在
hirosatogamo
PRO
3
420
Featured
See All Featured
How STYLIGHT went responsive
nonsquared
100
6k
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
410
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
200
What's in a price? How to price your products and services
michaelherold
247
13k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
150
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
250
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
Odyssey Design
rkendrick25
PRO
2
550
The Cult of Friendly URLs
andyhume
79
6.8k
The Language of Interfaces
destraynor
162
26k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
Optimising Largest Contentful Paint
csswizardry
37
3.6k
Transcript
Retina-Like Visual Image Reconstruction via Spiking Neural Model 第三回 全日本コンピュータビジョン勉強会(後編)
2020.07.18 Tres
自己紹介 • 経歴 • ~2011.3 :名古屋大学ー素粒子宇宙 • ~2016.3 :光学機器メーカー 開発職(光学設計)
• 2016.4~ :同社研究センター立ち上げメンバー (光学設計から画像処理まで) • 今回初発表 • 専門分野:光の物理 • 光学設計者の視点から何か貢献できればと思い参加を決めた • 視点がハードウェア(センサー・現象)の側面から深堀りしていきます • ハードウェア(電子回路)・ソフトウェアの面では勉強させてください 趣味は旅行(特に島)
紹介する論文 • Retina-Like Visual Image Reconstruction via Spiking Neural Model
• 選んだ理由 • 網膜について興味があった • 自分の知識が活かせる方面の話が入っていると嬉しかった
関連研究 • A Retina-Inspired sampling method for visual texture reconstruction(2019)
• 使用するセンサー(とデータ形式)が上記論文を前提にしてい るため、 • センサーについて • (SNNによる)画像の再構成について の順に説明します
問題設定 • ダイナミックなシーンで高品質な静止画を取得したい。
センサーについて
従来手法(センサー) • (普通の)カメラ • 通常数十fps、早くても1000fps程度 • ダイナミックレンジが狭い • 早くしても画像の容量は変わらないので重い(暗いピクセルも明るい ピクセルも同じだけの容量を食う)
• Dynamic vision • ~300MHz • ダイナミックレンジは自由に取れる • Eventだけなので、明るいピクセルのデータだけで軽い • 結局動くものは暗い
提案手法 • SPIKE • 視細胞の光応答を模倣したセンサー • 各視細胞が一定値以上のシグナル(フォトン)を受け取ると励起され パルスを発する • 非同期データ
• 250x400px 40000fps相当
contribution 1. より生物妥当性の高いメカニズムに基づいた三層のSNNを提 案し、高速な動きのあるシーンの静止画を再構成できるよう になった。 2. 動的・静的なニューロンの状態を区別するインクリメンタル な手法を提案した 3. 画像の再構成方法を検討し発表した
網膜神経(視神経)の信号を模倣したSPIKEカメラから出てくる 信号をANN(人工ニューラルネット)より生物妥当性が高い SNNによって処理し画像の再構築を高性能化(速度)した。
光の物理について • 光の放出はポワソン過程 • 単位時間あたりの光子の飛来数Nは分散√Nだけ揺らぐ • ノイズとは言うものの、実際に揺らいでるので回路側の工夫では取り 除けない • 平滑化などはある意味でのビニングにより複数ピクセルの統計量をま
とめSNR=N/√Nを大きくする処理→しかし解像度が犠牲に • 測光などでは明暗に関わらず一定の十分な統計量になるまで露 出するが、これは単一ピクセル • カメラは全領域を同期しているため、ピクセルごとに好き勝手に露出 を調整できない
暗いシーンでの画像劣化について • 低照度下では、ノイズの一番の要因は光 ショットノイズ(統計ゆらぎ) • そのため感度・F値・露出時間で光子統計 を稼ぐ • 感度とF値には上限がある •
一方で動的シーンをブレなく撮るためには 露出を短くする必要がある • 結果的に明るさとブレとのトレードオフに なる • しかし人間の目では動体が暗くならない 画像はHypebola optics様より
光物理から見るSpike • ピクセルに蓄積された電子(光子イベント)がある閾値以上に なるったとき信号を発生させる →(暗い領域を)いくら露光しても明るい領域が飽和しにくい →ハイダイナミックレンジ • 非同期 →ピクセルごとに露出を調整できる →(センサーとして)統計的に有利!ノイズが少ない
→時間ごとに光子の飛来を見ることができるので動体を追える
SPIKEのデータ形式(1)
SPIKEのデータ形式(2) Raw image
ネットワークについて
本ケースにSNNを使う意義 • 非同期で処理を行い低転送・低消費電力・高ダイナミックレンジ • 網膜付近で色空間の変換や簡単なエッジ処理等を行っているので、 センサーをネットワークに組み込むのはより生物妥当性が高い。 • 眼の発生は脳から突出した脳細胞が変化していくものであり、「目は単一の センサーというよりも、脳が飛び出てきたもの」とも言及される 画像は理研より
SNNの特徴 • 信号をスパイクで表現 • 一定のしきい値以上の入力があるとスパイクを出力 • ANNはこの期待値を伝搬しているとみなせる • 反応後は不応期と呼ばれる反応しない時間帯が発生する •
Anodal break excitationと呼ばれる入力がなくても反応する現 象がある • 反応の仕方に種類がある(Class I,II)
SNNモデルの種類 • Conductance-based model (Hodgkin-Huxley Model等) • 神経細胞内外のイオン濃度に着目したモデル • 計算コスト高い
• LIF(leaky integrate and fire) model • 振る舞いだけを模倣した簡便なモデル • Class II・Anodal break excitationも表現できない • 計算コストは低い • 定性的 model(FitzHugh-Nagumo, Izhikevich,DSSN等) • Conductance-based modelを単純化したモデル • 不応期もanodal break excitationもclass IIも表現できる 画像はT.Kohno “signal transmittion in neurons” 2011より
センサーについて
従来手法(センサーに付随する部分) • 網膜をシミュレートした演算器作成の試みは すでにいくつかある(例:An Analogue VLSI Intelligent sensor inspired by
the retina https://www.jstage.jst.go.jp/article/jjspe/7 9/11/79_999/_pdf 等) • 実際、視細胞には視神経から出るまでに3層 ほどのニューロンがついている • また、この細胞以外に横方向の情報を伝える水平 細胞・アマクリン細胞というのもある。(エッジ 検出などをしているか考えられている) (左図は谷アイクリニック様より引用)
ネットワーク概形 • 第一の層では信号を作り出す • 第二の層ではノイズなどを取り除き信号を綺麗にする • 第三の層ではmotion confidenceに基づいて画像を再構成
Motion local excitation layer • 入力のスパイクデータ に基づいてスパイクを 出力する • 動的・静的ニューロン
を区別 • Motion confidence matrixとしてモデル化 して、前後の時間的関 連性を紐付ける
Motion local excitation layer ポワソン過程を仮定してN>>1のときに ISIの分布はガウシアンに近似するとみなす Ising modelでエネルギーを記述できる (Stan Z
Li 2009.)
Spike refining layer • この層にLIFが導入される • 前の層とは1対1対応で接続されている • LIFの特性によってノイズ・過剰露光を緩和(不応期等) •
シナプス結合はSTDP
Visual Reconstruction Layer
比較している手法について TFI ISI(信号の間隔)を明るさとして再構成する TFA 閾値が変化するニューロンの反応に基づく再 構成 TFW 移動平均を明るさとして再構成(前論文の TFP)
None
None
None
他のDynamic vision sensorとの比較
感想 • 低照度・高ダイナミックレンジについて有利な仕組みが生体に おいてどのように働いているのかがわかり勉強になった。 • 生体埋め込みデバイスとの違いはなんだろう?応用可能か? • SNNの内部処理についてもっと勉強したい