$30 off During Our Annual Pro Sale. View Details »

Computational Neuroscience Chapter 5 (5.1~5.5)

mocobt
August 11, 2021

Computational Neuroscience Chapter 5 (5.1~5.5)

身内用本読みの資料です。
題材は『計算論的神経科学』(田中宏和 著, 森北出版)で、第5章の 5.1~5.5までの内容を扱っています。
右上に記載されているページ番号は第1版準拠です。
間違っている/著作権的に問題がある場合は連絡してください。

@mocobt

mocobt

August 11, 2021
Tweet

More Decks by mocobt

Other Decks in Science

Transcript

  1. 計算論的神経科学 第5章 前半(5.1~5.5) 確率論的最適制御 @mocobt

  2. 完全な秩序を保つことが難しいということは驚くことではないが、 完全な無秩序も我々の手の届くものではないということは意外な真実である ― 数学者 Brian Hayes @ UC Berkeley (2001)

  3. 目次 第5章 確率論的最適制御 ~ノイズ下でも正確な運動を可能にする制御~ • 5.1 フィードフォワード制御とフィードバック制御 • 5.2 最小分散モデル

    • 5.3 ダイナミックプログラミング • 5.4 ベルマン最適方程式 (決定論的システムの場合) • 5.5 線形二次レギュレータ (LQR) 制御 第1章版でp.122~132
  4. 目次 第5章 確率論的最適制御 ~ノイズ下でも正確な運動を可能にする制御~ • 5.1 フィードフォワード制御とフィードバック制御 • 5.2 最小分散モデル

    • 5.3 ダイナミックプログラミング • 5.4 ベルマン最適方程式 (決定論的システムの場合) • 5.5 線形二次レギュレータ (LQR) 制御 第1章版でp.122~132 背景知識 フィードフォワード制御 フィードバック制御のための準備 (本旨は5.6~) 後半はよくある数式変形だけでそんなに面白くない
  5. 背景: ばらつきのある運動 • ヒトの運動は、同じような運動でも若干異なる → 確率的なノイズの影響 p.122~p.122 ノイズの原因: 腰痛、末端冷え性、心理的な要因、天気など ...

  6. 過程ノイズ (運動出力に伴うノイズ ) 背景: 確率論的な要素を扱えるモデルの導入 p.122~p.122 観測ノイズ (感覚フィードバックに含まれるノイズ ) 状態変数

    制御信号 観測変数 既知の定数行列 既知の定数行列 既知の定数行列
  7. 5.1 制御則の二大流派 • フィードフォワード制御 (feedforward control) ◦ 制御信号を時間 t の関数で表現

    • フィードバック制御 (feedback control) ◦ 制御信号を状態変数 x の関数で表現 p.122~p.123
  8. 5.1 フィードフォワード制御とフィードバック制御の関係 • 決定論的な系の場合 ◦ 現在の状態 x は(制御信号に対して)時間 t の関数として一意に決まる

    (Appendix C) ◦ フィードフォワード制御とフィードバック制御は 等価 • 確率論的な系の場合 ◦ 制御信号が既知でも、ノイズのせいで状態変数にばらつきが出る ◦ フィードフォワード制御とフィードバック制御は 異なる 以下、簡単のため離散時間システムで考える p.122~p.123
  9. 5.2 運動の試行毎のばらつき • 動物は小さな力を伴う運動は(比較的)正確に行える • 逆に、大きな力を出すとノイズが増える • 力とノイズの大きさには相関がありそう? p.123~p.123 ノイズは小さいので手術を正確にできる

    瓦の「特定の部分だけ」割らないのは難しい
  10. 5.2 確率論的な力学方程式 [Harris & Wolpert, 1998] p.123~p.123

  11. 5.2 確率論的な力学方程式 [Harris & Wolpert, 1998] p.123~p.123 信号依存性ノイズ (signal-dependent noise)

    こいつを考慮して、なるべく正確 に運動を行いたい! ↓ 最小分散モデル
  12. 5.2 確率論的な力学方程式をもう少し詳しく... 右(5.2)式を再帰的に変形してみると... p.124~p.124

  13. 5.2 確率論的な力学方程式をもう少し詳しく... 右(5.2)式を再帰的に変形してみると... p.124~p.124 時刻tの状態変数の期待値 共分散分散行列 (要代入) 制御信号uの1次関数 制御信号uの2次関数 期待値

    & 共分散分散行列で運動制御をモデル化したい!
  14. 5.2 最小分散モデル: 位置の分散を最小化 s.t. 終了状態 終了時刻 ある一定期間

  15. 5.2 最小分散モデル: 位置の分散を最小化 s.t. 運動終了後、一定時間だけ状態の期待値が目的位置に留まるという制約 最適化問題: 位置分散の最小化 終了状態 終了時刻 ある一定期間

  16. 5.2 最小分散モデル p.124~p.125 s.t. • 上の式は二次計画法(e.g. ラグランジュの未定乗数法 ) で簡単に解ける •

    分散を最小化するのは... ◦ 運動制御の観点だと、姿勢を安定化するため ◦ 数値計算の観点だと、解の安定性のため • 制御信号は時間の関数となる → 最小分散モデルはフィードフォワード制御
  17. 5.2 最小分散モデルに基づいた心理実験 • 見事に実験結果とモデルがほぼ一致 (下図) • 滑らかな軌道は滑らかさの評価関数から来ていないのかも? ◦ そもそも滑らかさの定義は結構曖昧 ...

    (c.f. 第2章の躍度最小/トルク変化最小モデル) ◦ 逆に最小分散モデルの「ノイズあるけど正確に動いてね」という制約は尤もらしい p.125~p.126
  18. 5.3 最小分散モデルのPros/Cons • Pros ◦ フィードフォワード制御なので、速い運動を記述するのには適している • Cons ◦ 感覚信号(=観測変数z)を評価関数に使っていない

    ◦ 感覚信号中のノイズも未考慮 p.126~p.126 未考慮
  19. 5.3 最小分散モデルを踏まえて、これからやりたいこと • 感覚信号から推定される状態を用いて、フィードバック制御を行いたい ◦ 変分法ベースの最適化は「経路全体を一気に最適化」するようなグローバルな手法だった ◦ 他のいい感じの手法がほしい p.126~p.126 確率的なノイズを含むと、変分法ベースの最適化はきつい

    変分法による最適解導出 (第2章参照)
  20. 5.3 ダイナミックプログラミング (DP) • 高次元の最適化問題を低次元の逐次最適化問題に帰着する手法 • 制御信号を終時間から後ろ向きに1Stepずつ求める ◦ cost-to-go関数 (以下のV)が中心的な役割を果たす

    p.126~p.127 ref. Appendix F, G, H, I
  21. 5.4 決定論的システムでの最適化問題 以下の決定論的な系の時間発展方程式 p.127~p.128 において、以下の評価関数を最小化する最適制御問題を考える 瞬時コスト 終端コスト

  22. 5.4 cost-to-go関数 • 上を「時刻 t 以降の評価関数」の集まりと捉えると、最小化が容易 p.128~p.128 cost-to-go関数 (右辺で時刻 t

    以降の制御信号の最適化が行われている )
  23. 5.4 ベルマン最適方程式 (決定論的システムの場合) Cost-to-go関数を時刻 t での制御信号とそれ以降の制御信号に分離してみる p.128~p.129 再帰的にDPで解ける形式に変形可能 → これをベルマン最適方程式という

    Bellman optimality equation
  24. 5.5 線形二次レギュレータ (LQR) 制御 • ベルマン最適方程式は解析的に解けない • 例外的に解析解が得られる問題として、以下の線形運動方程式 p.129~p.129 において、二次の評価関数

    を最小化する、線形二次レギュレータ制御問題を考える linear-quadratic-regulator, LQR 既知の定数行列 既知の定数行列 既知の定数行列 既知の定数行列 既知の定数行列
  25. 5.5 線形二次レギュレータ(LQR) 制御 問題 • ノイズを含まない系なので、解法は2つある ◦ ポントリャーギンの最小原理 (PMP)による最適化 (~

    変分法による最適化 ) ◦ DPによる最適化 • これからはこれら2つの解法で実際にLQR制御問題を解いてみる ◦ どちらの手法も上式を最小化する制御信号 u を求めたい! p.129~p.129 s.t.
  26. 5.5 PMPに基づくLQR 上の最小化問題はラグランジュの未定乗数法を用いると、 p.129~p.129 s.t. ラグランジュ未定定数 を最小化する問題に書き直せる

  27. 5.5 PMPに基づくLQR: ハミルトニアンの導入 上を最小化するため、以下のハミルトニアンを導入する ( t でくくってるだけ ) p.130~p.130

  28. 5.5 PMPに基づくLQRの最適化 p.130~p.130 上を最小化するための状態変数、制御変数、ラグランジュ未定定数が満たす条件は、 となり、容易に解ける。

  29. 5.5 LQRの最適化におけるPMP, DPの比較 • ポントリャーギンの最小原理に基づくと、すべての変数を一度に最適化する • これから行うDPベースの解法では、逐次的に変数を最適化していく p.130~p.130

  30. 5.5 DPに基づくLQRにおけるcost-to-go関数 上をDPを用いて解くためにcost-to-go関数を導入 p.130~p.130 s.t.

  31. 5.5 DPに基づくLQRにおけるcost-to-go関数の変形 Cost-to-go関数を以前と同様に時刻 t での制御信号とそれ以降の制御信号に分離 p.130~p.130

  32. 5.5 DPに基づくLQRにおけるcost-to-go関数の変形 Cost-to-go関数を以前と同様に時刻 t での制御信号とそれ以降の制御信号に分離 p.130~p.131 さらに変形すると、以下のLQR問題におけるベルマン方程式を得る

  33. 5.5 LQR問題のベルマン方程式を解いてみる 1 • 時刻Tでのcost-to-go関数は定義より以下である p.131~p.131

  34. 5.5 LQR問題のベルマン方程式を解いてみる 1 • 時刻Tでのcost-to-go関数は定義より以下である p.131~p.131 • t = T

    - 1 のベルマン方程式 に代入
  35. 5.5 LQR問題のベルマン方程式を解いてみる 2 最右辺を微分してQが対称行列であることを用いると、以下の最適解を得る p.131~p.131

  36. 5.5 LQR問題のベルマン方程式を解いてみる 2 最右辺を微分してQが対称行列であることを用いると、以下の最適解を得る p.131~p.131 よって、時刻 T-1 でのcost-to-go関数は以下となる

  37. 5.5 LQR問題のベルマン方程式...つまりどういうこと? p.131~p.132 • 任意の時刻のcost-to-go関数を二次形式で書ける • ある時刻の制御信号uは同時刻の状態xにフィードバックゲイン行列Lをかけている ◦ 制御信号 u

    を状態 x の関数で表せているので、フィードバック制御になっている! フィードバックゲイン行列
  38. 5.5 LQR問題における最終的なベルマン方程式 • 前述の再帰的な関係により、以下の時刻 t におけるベルマン方程式が得られる • 行列S_{t+1}から L_{t}, S_{t},

    u_{t}を求められる p.132~p.132 この解き方は系がノイズを含む場合にも拡張できる! → 5.6へ
  39. まとめ • 今回の目的: ノイズを含む系でもほぼ正確に運動制御できるモデルを得る • 二大制御手法: 決定論的な系の場合は等価だが、ノイズが絡むと異なる ◦ フィードフォワード制御 :

    制御信号は時刻の関数 ▪ 最小分散モデル: • 過程ノイズは制御信号に依存すると仮定 (観測ノイズは無視 ) • 状態の分散が最小となるように制御信号を最適化 ◦ フィードバック制御: 制御信号は状態の関数 ▪ Dynamic programmingにより、状態に応じて逐次的に制御信号を最適化可能 ▪ Toy exampleとしてLQRを古典的なPMPベースの手法とDPベースのベルマン方程式で記述 過程ノイズ (運動出力に伴うノイズ ) 観測ノイズ (感覚フィードバックに含まれるノイズ )