Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Computational Neuroscience Chapter 8

E2dd989b2ba0f83d8a981b9cb3197bf1?s=47 mocobt
September 15, 2021

Computational Neuroscience Chapter 8

身内用本読みの資料です。
題材は『計算論的神経科学』(田中宏和 著, 森北出版)で、第8章までの内容を扱っています。
右上に記載されているページ番号は第1版準拠です。
間違っている/著作権的に問題がある場合は連絡してください。

@mocobt

E2dd989b2ba0f83d8a981b9cb3197bf1?s=128

mocobt

September 15, 2021
Tweet

Transcript

  1. 計算論的神経科学 第8章 次元縮約と成分分解 @mocobt

  2. しかしさらに驚くべきことは、 これら近未来的な機械の設計原理が人間の脳の設計原理を模倣していることである。 ― Olshausen & Field - 視覚におけるSparse codingモデルを提唱 -

    一次視覚野で受容される特徴を自然画像から導出 Bruno A. Olshausen @ UC Berkeley David J. Field @ Cornell Univ. 自然画像から抽出した特徴 [Olshausen and Field, Nature 381]
  3. 今回やりたいこと 多自由度はつらいので低自由度で制御したい

  4. 目次 第8章 次元縮約と成分分解 ~脳のなかの真の自由度~ • 8.1 主成分分析 • 8.2 独立成分分析

    • 8.3 非負値行列因子分解 • 8.4 状態空間モデルの次元縮約法 • 8.5 因子分析 第1章版でp.122~132 • 各節は割と独立 • 式変形ゲーム多め
  5. 背景 次元の呪い (curse of dimensionality) • 身体制御&感覚処理は多自由度すぎて制御がしんどい p.192~p.192 上腕 •

    20以上の関節自由度 • 60以上の筋肉自由度 網膜 • 120Mの桿体細胞 • 6Mの錐体細胞 蝸牛 • 20Kの有毛細胞
  6. 背景: 真の自由度の空間 • 各変数間には相関があり、真の自由度は小さい • 低次元な真の自由度の空間で効率的に制御したい! p.192~p.192 各関節の動きは協調 自然画像の隣接ピクセル輝度は相関しがち

  7. 背景: 今回やること • 状態変数の低次元化を行う手法の紹介 ◦ 次元縮約 (dimensional reduction) ◦ 成分分解

    (component decomposition) • 信号処理や機械学習だけでなく、脳のモデル化にも使えることを示す p.192~p.192
  8. 8.1 主成分分析(Principal Component Analysis, PCA) • 動機: データ全体の大まかな変動を説明する成分が欲しい p.193~p.193 •

    PCA: データの重み付き線形和をとり、変動を示す成分毎に分解する手法 • 方針: 重み付け係数wを用いて、yの分散を最大化 既知のデータ 未知の大まかな変動 未知の重み付け係数
  9. 3. 制約条件 により、分散(8.2)を最大化 8.1 PCAの導出 1. x(t)の弱定常性を仮定すると、x(t)の共分散行列は時間によらない 既知の時間不変の定数行列 2. (8.1)の分散を求める

    p.193~p.193
  10. 8.1 PCAの導出 4. ラグランジュの未定乗数法に基づいて、以下のエネルギー関数を定義 5. ↑をwとλで偏微分する 6. ↑を equal 0

    とすると、λを固有値とする固有値問題を得る p.193~p.193
  11. 8.1 PCAの導出 7. 最大固有値を与える固有ベクトルw_1から得られる変動が第一主成分となる 8. ↑と制約と(8.3)を用いて、(8.2)の分散を求める 重み付け係数は固有ベクトル w_1、分散は固有値λ_1になっている! p.193~p.193

  12. 8.1 PCAの導出 9. y_{1}(t)の寄与を差し引いたデータを新たに定義 & 共分散行列計算 p.193~p.194 10. 同様にi=2, …,

    nについてλ_{i}, w_{i}を求める
  13. 8.1 補足: 主成分間の相関は無い p.194~p.194 (Cは実対称行列なので、異なる固有ベクトルは直交する )

  14. 8.1 補足: 主成分を用いた元データの再構成 p.194~p.195 • 主成分(y_{i}) where i=1, …, n

    から容易に元データを復元可能 • 第k (< n)主成分までを用いた再構成結果で、元データを近似可能 近似精度
  15. 8.1 NNを用いたPCA • NNでもPCAっぽいことができる → Oja 1982, Sanger 1989 p.195~p.195

    n個の入力細胞の活動 : 1個の出力細胞の活動 : • ヘブ学習則: 重み付け係数(入出力細胞のシナプス強度)を以下で更新 (Oja, 1982) 学習係数 分母で正規化することで、右の制約が常に成り立つことを保証
  16. 8.1 NNを用いたPCA • (8.10)による更新式は第一主成分分析と同じになる ◦ 更新則をetaで1次までテイラー展開 p.195~p.196

  17. 更新則のテイラー展開 http://www.cs.cmu.edu/~bhiksha/courses/deeplearning/Fall.2016/pdfs/OJA.pca.pdf 元論文のnotation 教科書のnotation

  18. 8.1 NNを用いたPCA • (8.10)による更新式は第一主成分分析と同じになる ◦ 更新則をetaで1次までテイラー展開 ◦ 学習係数etaがかかっている第二項の期待値計算 ◦ wは固有方程式(8.3)を満たすように収束していく

    → 第一主成分をNNで学習可能 p.195~p.196 第二主成分以降も同様に近似可能
  19. 8.2 独立成分分析(independent component analysis, ICA) • 動機: 観測データを生成する独立な信号源を特定したい ◦ 入力はPCAと同じ

    • ICA: 観測xから独立な信号源s(t)とその混合行列Aを推定する手法 p.196~p.197 混合行列 • 信号源を混ぜて観測変数をつくる) • 未知の行列
  20. 8.2 PCAとICAの違い p.197~p.197 x w Dot y x Dot A

    s PCA (厳密ではない) ICA 既知 既知 未知 未知 分散最大 未知 各成分が互いに独立 未知
  21. 8.2 ICAの特徴 • Aは未知として扱う • 「sの各成分は独立で、非ガウス分布から出ている」仮定を置けば解ける ◦ 中心極限定理: 互いに独立な確率変数の平均はガウス分布に従う ◦

    ICAは中心極限定理の逆操作に相当 • ICAの実現方法は色々ある p.197~p.197 x Dot A s 既知 未知 未知 各成分が互いに独立
  22. 8.2 混合過程が線形の場合のICA • 以下のように書き換えても問題はない → PCAとほぼ等価! p.197~p.197 x w Dot

    y 既知 未知 未知 各成分が互いに独立 x Dot A s 既知 未知 未知 各成分が互いに独立
  23. 8.2 相互情報量に基づくICA: InfoMax 出力の同時確率分布と周辺確率分布の積のKL divを最小化する重みを求める手法 p.197~p.198 KL divergence

  24. 8.2 相互情報量に基づくICA: InfoMax • InfoMaxでは周辺確率分布は適当に仮定する必要がある p.198~p.198 尖度が大きい!

  25. 8.2 尖度(せんど; kurtosis) • 4次のモーメントを分散の二乗で割った無次元量 • 正規分布と比較して、対象分布の平均値周りの尖り具合と裾野の広さの指標 p.198~p.198 https://www.slideshare.net/prime_mgm/timevariant-subgaussian-independent-lowrank-matrix-analysis-based-on-generalized-iterative-projection-115129842

  26. 8.2 勾配降下法に基づくInfoMaxの学習則 • (8.15)を極小化するため、yをwとxで表現 p.198~p.198 変数変換式

  27. 8.2 勾配降下法に基づくInfoMaxの学習則 p.199~p.199 (8.15)第一項をWで偏微分 (8.15)第一項をWで偏微分 変数変換式

  28. 8.2 勾配降下法に基づくInfoMaxの学習則 p.199~p.200 • 以上より、I(W)のWに関する勾配を得る • 最急降下法に従い、etaを学習係数として以下の学習則を得る • 逆行列がうざいので、右辺にW^{\top}Wをかけて消す 自然勾配法

  29. 8.2 InfoMaxアルゴリズム • 以下2つの学習則のこと p.200~p.200

  30. yとφ(y)を無相関化している 8.2 InfoMaxアルゴリズム • 以下2つの学習則のこと p.200~p.200 • 右が成り立てば収束 左辺をy_i=0まわりでテイラー展開して (i,

    j)成分に着目 (i != j) 赤下線部が0となるのは、y_i, y_jが独立なときだけ!
  31. 8.2 PCAとInfoMaxベースのICA比較 p.200~p.200 PCA ICA 線形演算で分散最大化 ↓ 主成分の線形非相関化 非線形演算で分散最大化 ↓

    主成分の非線形非相関化 InfoMaxベースのICAはPCAの拡張になっている!
  32. 8.2 独立成分としての感覚細胞の反応特性 • 第一次視覚野(V1)は特定方向の線分やエッジに特異的に反応 → 方位選択性 • Bell & Sejnowski

    1997 ◦ 視覚野神経細胞の単純細胞の役割は「自然画像中の独立成分を抽出すること」だと仮定 ◦ ICAで得られた独立成分は方位性をもったガボール関数に類似 → 仮説を立証 p.200~p.201 orientation selectivity
  33. 8.2 第一次視覚野の独立成分モデルの拡張 • Hyvärinen & Hoyer, 2000: 二次の非線形性を導入して複雑細胞の反応性を説明 • Hyvärinen

    et al. 2005 / Hosoya & Hyvärinen. 2015 ◦ V1とV2を模した階層的生成モデルをICAで学習 ◦ 猿のV2で見られる神経活動の特徴を再現🐵 p.201~p.201 複雑細胞の反応性 階層的生成モデル
  34. 8.2 聴覚入力へ独立成分分析を適用 [Lewicki 2002, Smith & Lewicki 2006] • 第一次聴覚野の神経細胞は特定周波数に反応性を持つ

    • 自然音にICAを適用すると、特定周波数にピークをもつ独立成分を確認 ◦ 独立成分は一定の時間窓を持っていた ◦ ウェーブレットの基底に近く、第一次聴覚野の神経細胞の反応特性と類似 (本当か?) p.202~p.202 第一次聴覚野
  35. 8.3 非負値行列因子分解 (Non-negative matrix factorization; NNMF) • 動機: データ自体が非負の値を取る場合、非負性を尊重した解析法がほしい ◦

    e.g. 画像、筋電信号、スペクトラム、テキスト ◦ 顔画像を非負成分に分解できれば、目、鼻、口などの顔の部品を保つ成分に分解可能 p.203~p.203 • NNMF: 以下のように正の行列を2つの正の行列に分解 既知 既知 未知 未知 • 方針: 以下の制約付き最適化問題を解く
  36. 8.3 NNMFのKKT条件を用いた解法 • ラグランジュの未定乗数法に基づき、以下のラグランジアンを定義 p.203~p.204 • ラグランジアンを各変数で偏微分して equal 0として解く (◦はアダマール積)

  37. 8.3 NNMFのKKT条件を用いた解法 • ΛとΞを気合で(8.30)の下2式を使って消去 p.204~p.205 • 以下の情報的更新則を得る (非負性により収束解は一意に定まる)

  38. 8.3 筋電 • 皮膚上or筋肉内部に電極を付与することで、筋肉の活動を測定可能 • 筋電(electromyogram, EMG): 測定した電位の変化 ◦ 筋肉の活動に電位の正負は関係がない

    → 絶対値だけを見るので、非負 p.205~p.205
  39. 8.3 シナジー (synergy) • 筋肉の真の低次元自由度 ◦ キネマティックシナジー (kinematic synergy): 姿勢や関節角などのキネマティクス量

    ▪ e.g. 道具を使うときの五指の運動は独立ではない → 低自由度で記述可能 (Santello et al, 1998, 2002) ◦ 筋シナジー (muscle synergy): 筋電信号などのダイナミクス量 ▪ e.g. 到達運動において、筋肉は強調して作動 (d’Avella et al. 2003, 2006) p.205~p.205
  40. 8.3 🐸の蹴り運動中の筋活動のNNMFによるシナジー分解 • 問題設定: 複数の筋肉の筋電信号中のシナジーを知りたい ◦ Input: T個の時間サンプルからなる N本の筋肉の筋電データ ◦

    Output: Xを分解して得られる非負行列 • 各要素の意味 ◦ w: 筋肉の重み (シナジー成分とも呼ばれる ) ◦ h: 時系列 p.205~p.206
  41. 8.3 🐸の蹴り運動中の筋活動のNNMFによるシナジー分解 p.206~p.207

  42. 8.4 Balanced truncation • 状態空間モデルの入出力関係をなるべく保ちながら次元縮約を行う方法 ◦ Input: を状態変数とする以下の状態空間モデル ◦ Output:

    以下の状態変数 と p.207~p.208 既知
  43. 8.4 線形系でのBalanced truncation • 最初に、簡単のため以下の線形系を考える p.208~p.208 • で線形変換すると、以下を得る

  44. (復習) 可制御グラム行列 • 可制御性: システムの状態を入力で動かすことができるかを示す性質 • (定義) ある任意の初期状態から他の任意の状態に有限時間内に導くことができる 制御信号の系列が存在する場合、その状態空間モデルは可制御である •

    以下の可制御グラム行列が非特異(正則)であれば、可制御である
  45. (復習) 可観測グラム行列 • 可観測性: システムの状態を出力から推定することができるかを示す性質 • (定義) n個の観測量z_0,z_1,...,z_{n-1}が与えられたとき、状態の初期条件x_0を 一意に特定できれば、その状態空間モデルは可観測である •

    以下の可観測グラム行列が非特異(正則)であれば、可観測である
  46. 8.4 線形系でのBalanced truncation • 上により、可制御グラム行列と可観測グラム行列も以下のように変換される p.208~p.208 • で線形変換すると、以下を得る • Tをうまく選べば、両方を同時に対角化できる

    固有値(大きい順)
  47. 8.4 線形系でのBalanced truncation • 対角化した可制御グラム行列/可観測グラム行列を寄与度に応じて分離 p.208~p.209 寄与大 寄与小 • 寄与の小さい部分は無視しても良いため、新たにq次元の状態変数qを定義

    n次元ベクトルの最初のq成分を取り出す射影演算子
  48. 8.4 線形系でのBalanced truncation • 結果として、上の状態空間モデルは下の低次元の状態空間モデルで近似可能 p.209~p.209

  49. 8.4 Balanced truncationによる🐸下肢ダイナミクスの近似 • Berniker et al. 2009 ◦ 17次元の状態変数と13本の制御信号(筋肉)をもつ非線形運動方程式でカエルの下肢運動を計算

    ◦ ↑のモデルをBalanced truncationで次元縮約 ◦ その後、実験で得られたシナジーと比較 → 次元縮約後の運動軌道がもともとの運動軌道と一致 p.210~p.211
  50. 8.5 因子分析 (Factor Analysis) • 因子分析: 互いに連動する神経細胞の活動を線形にモデル化する手法 ◦ Input: n個の神経活動(e.g.

    発火頻度) ◦ Output: 以下を満たすq次元の隠れ変数 p.211~p.211 射影行列 残差 適当な対角行列 因子分析自体は神経細胞の活動に限った手法ではない
  51. 8.5 因子分析の求め方 • と仮定すると、(8.53)からxとzの同時確率分布を得る p.211~p.211 正規分布 • 条件付き確率の公式より以下を得る (要確認) •

    よって、隠れ変数の期待値として以下を得る
  52. 8.5 因子分析の求め方 • と仮定すると、(8.53)からxとzの同時確率分布を得る p.211~p.211 正規分布 • 条件付き確率の公式より以下を得る (要確認) •

    よって、隠れ変数の期待値として以下を得る
  53. 8.5 学習における神経学的制約 • 神経活動がq (<n)次元に制限されている時、n次元自由度の学習はできないはず • Sadtler et al. 2014

    ◦ 🐵の神経活動からカーソルを操作させる実験を行った (自由度を変更可能な実験 ) ◦ q次元の神経活動から運動方向を決定できたが、 n次元の神経活動からは決定できなかった ◦ 以下を実証 ▪ 各神経活動は独立ではなく、低次元の隠れ変数により生成されている ▪ 学習は隠れ変数の空間のみで可能 p.212~p.213
  54. まとめ • 今回の目的: 多自由度はつらいので低自由度で制御したい • PCA: データ全体の大まかな変動を説明する成分を抽出する手法 ◦ How to:

    元データにある重みをかけて分散最大化 ◦ 主成分の線形非相関化 • ICA: 観測データを生成する独立な信号源を特定する手法 ◦ How to: 元データにある重みをかけて得たベクトルの各成分の同時確率分布と周辺確率分布の積の間の KL divergenceを最小化 ◦ 主成分の非線形非相関化 • NNMF: 非負の行列データを非負の低次元行列 2つへ分解する手法 ◦ How to: 元データと復元結果間のフロベニウスノルムを最小化 • Balanced truncation: 状態空間モデルの入出力関係を保ちながら次元縮約を行う方法 ◦ How to: 可制御グラム行列/可換則グラム行列に線形変換をして対角化 & 固有値の大きい部分だけで状態空間モデルを構成 • 因子分析: 互いに連動する神経細胞の活動を線形にモデル化する手法 ◦ How to: 元データと隠れ変数間の同時確率分布を得て、期待値を取る