Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

フィジカルAIのためのFEP入門

Avatar for Kentaro Nomura Kentaro Nomura
November 25, 2025
350

 フィジカルAIのためのFEP入門

KUPAC第四回フィジカルAI勉強会 2025/11/26

Avatar for Kentaro Nomura

Kentaro Nomura

November 25, 2025
Tweet

Transcript

  1. 2 自己紹介 野村 健太郎 Kentaro Nomura • 所属 • 大阪大学大学院

    基礎工学研究科 • 社会ロボット学グループ(吉川研究室) • 博士前期課程1年 • 最近の研究 • 自由エネルギー原理を社会に拡張した理論 (集合的予測符号化)に関する研究 • 分散型マルチエージェント世界モデル @rkn_ra
  2. 4 1. 自由エネルギー原理を数式無しでざっくり理解する 2. 知覚と学習の理論 – 生成モデルと変分自由エネルギー 3. 行動の理論 –

    能動的推論・期待自由エネルギー 4. ロボット学習へのスケーリング 目次 理論 応用 • 基本的な理論について説明 • DNNでの実装をイメージしてもらう • 神経科学・認知科学・哲学の話題には 立ち入りません • ロボティクスから見た嬉しさ • FEPでロボットを動かすための モデル構築方針(の一例) • 最近のFEP×ロボティクス研究事例
  3. 6 エージェントは身体を通してしか環境と相互作用できない 世界観 環境 Agent • Agentは自らが置かれている環境の真の状態には直接アクセスできない. • Agentはセンサとモータからなる身体をもつ. ‒

    観測: センサからの感覚入力.環境の状態から生まれる. ‒ 行動: モータによる環境への介入.環境の状態を変化させる. 状態 観測 行動 何らかの メカニズム
  4. 7 環境 Agent 状態 観測 行動 何らかの メカニズム Agentは生成モデルを利用して知覚・行動・学習を行う 生成モデルとAgentの3機能

    • Agentは環境の法則を写し取ったシミュレータ(生成モデル)をもつ. ‒ 行動によって環境の状態がどのように決まり,それがどう観測されるかを予測できる. 状態 観測 行動 生成モデル
  5. 8 環境 Agent 状態 観測 行動 Agentは生成モデルを利用して知覚・行動・学習を行う 生成モデルとAgentの3機能 • Agentは環境の法則を写し取ったシミュレータ(生成モデル)をもつ.

    ‒ 行動によって環境の状態がどのように決まり,それがどう観測されるかを予測できる. • 知覚: 得られた観測から環境の状態を推論する.生成モデルの逆演算. • 行動: 環境に介入して,推論した状態に合うように実際の状態を変化させる. • 学習: 環境の法則をより良く捉えられるように,生成モデル自体を更新する. 状態 観測 行動 生成モデル 状態の推測
  6. 9 FEPは3機能を自由エネルギーの最小化として統一的に捉える 自由エネルギー原理 • 知覚=状態を推論 / 行動=推論に合わせて環境の状態を変化 / 学習=生成モデルを更新 •

    自由エネルギー原理 (Free Energy Principle; FEP) ‒ 状態推定・行動・生成モデルの「悪さ」は全て共通のコスト関数で評価できる. ‒ このコスト関数を自由エネルギーと呼ぶ. ‒ 生物の脳は自由エネルギー(の微分値)を計算して最小化することで3機能を実現する. 状態推定,行動,生成モデル 自由エネルギー Agent 観測 行動 状態 観測 行動 生成モデル 状態の推測
  7. 12 経験に基づき状態と観測の生成過程を確率的に表現したモデル 生成モデルとは • 簡単のため,ひとまず行動と時間発展を考慮しないモデルを考える. • 生成モデル ‒ 環境がもつ観測の生成プロセスを再現するようにAgentが経験から学習したモデル ‒

    「環境の法則はおそらくこうなっているだろう」というイメージ ‒ 隠れ状態𝒔の確率分布𝒑(𝒔)と,𝒔が決まったときの観測𝒐の確率分布𝒑(𝒐|𝒔)で表現できる. ➢ 前者を”事前分布”,後者を”観測モデル”と呼ぶ. 生成モデル: 事前分布×観測モデル
  8. 13 経験に基づき状態と観測の生成過程を確率的に表現したモデル 生成モデルとは: 具体例 環境 Agent 状態 𝒔∗ 観測 o

    or 状態 𝒔∗ 引き出しの中に カップが 𝑠 = 0 ない 𝑠 = 1 ある or 𝑜 = 0 𝑜 = 1 観測 o これまでの経験的に, • 引き出しの中に カップがある確率 = 70% • ないときに𝑜 = 0の画像 が得られる確率 = 90% • あるときに𝑜 = 1の画像 が得られる確率 = 90% 生成モデル: 事前分布×観測モデル
  9. 14 知覚 = 観測を得たときの事後分布を求めること 生成モデルを用いた知覚 • 知覚: 得られた観測から環境の状態を推測する.生成モデルの逆演算. • 生成モデル𝑝(𝑠,

    𝑜) = 𝑝(𝑠)𝑝(𝑜|𝑠)と得られた観測𝑜から,状態𝑠の事後確率𝑝(𝑠|𝑜)を求めたい. • ベイズの定理: カップの例 (o=1を得た場合): 生成モデル: 事後分布: ‒ この式に得られた観測 𝑜 を代入してしまえば,事後分布が計算できる(ベイズ推定).
  10. 15 知覚 = 観測を得たときの事後分布を求めること 生成モデルを用いた知覚 • 知覚: 得られた観測から環境の状態を推測する.生成モデルの逆演算. • 生成モデル𝑝(𝑠,

    𝑜) = 𝑝(𝑠)𝑝(𝑜|𝑠)と得られた観測𝑜から,状態𝑠の事後確率𝑝(𝑠|𝑜)を求めたい. • ベイズの定理: ‒ この式に得られた観測 𝑜 を代入してしまえば,事後分布が計算できる(ベイズ推定). カップの例 (o=1を得た場合): 生成モデル: 事後分布: ベイズ推定
  11. 16 事後分布𝑝(𝑠|𝑜)は一般的に計算が困難 ベイズ推定から変分推定へ • ベイズの定理: ‒ 一般に,分母にある状態sについての積分(総和)が計算困難.. ➢ 先の例では,とりうる状態が離散で少なかったから計算できた. ‒

    現実世界は変数が多く, 脳もあらゆるすべての状態を考えて総和するような処理はしていないだろう. • 変分推論 ‒ 事後分布𝑝(𝑠|𝑜)を近似する新たな確率分布𝑞(𝑠)(近似事後分布)を導入する. ‒ 近似事後分布 𝒒(𝒔) の形状を変形して真の事後分布 𝒑(𝒔|𝒐) に一致させることができれば, 真の事後分布𝑝(𝑠|𝑜)を求めたことになる. ➢ 直接計算を最適化問題に置き換える. → 新しく𝑞(𝑠)で近似する
  12. 17 真の事後分布と近似事後分布の類似度を最小化する 変分自由エネルギー • Kullback‒Leibler(KL)ダイバージェンス = 2つの確率分布の一致度(非負) • これを最小化するような𝑞(𝑠)を求める. •

    でも,この式もまたそのまま計算できない(そもそも今知りたいのが𝑝(𝑠|𝑜))→変形してみる ‒ 左辺を𝑞(𝑠)について最小化したい訳だが,右辺第2項は𝑞(𝑠)によらず一定. ‒ 右辺第1項だけ最小化すれば,真の事後分布𝒑(𝒔|𝒐)に最も近い所望の𝒒(𝒔)が求められる! ➢ この項を変分自由エネルギー𝐹(𝑞, 𝑝; o)と呼ぶ. [Friston+ 2006] [Friston+ 2006] A free energy principle for the brain, Journal of Physiology-Paris, Volume 100, Issues 1–3
  13. 18 状態推定(知覚)も生成モデルの更新(学習)も同じ式の最小化で達成できる 変分自由エネルギー最小化による知覚と学習 • 知覚: 得られた観測から環境の状態を推測する.生成モデルの逆演算.近似事後分布qの計算. • 学習: 環境の法則をより良く捉えられるように,生成モデル 𝑝(s,

    o) = p(s)p(o|s) 自体を更新する. ‒ 𝐹の最小化により本当に求めたいp(s|o)とq(s)との一致度が最小化される. ‒ 本来モデルの「悪さ」は,得られた観測が 生成モデルにとってどれだけ予期できないものだったかを表す− log 𝑝 𝑜 によって評価される. ‒ KLダイバージェンスの非負性から𝐹は− log 𝑝 𝑜 の上界(最悪ケースにおける評価値) を表すので,𝐹の最小化により最もマシな生成モデル𝑝(𝑠, 𝑜)が得られることになる.
  14. 19 実際にはUncertainty+Complexityによって計算できる 実際に変分自由エネルギーを計算するには • 右辺に計算できないp(s|o)やp(o)が含まれているので,計算できないのでは? → その通り • しかし,𝐹 𝑞,

    𝑝; 𝑜 = − ׬ 𝑞 𝑠 log 𝑝 𝑠,𝑜 𝑞 𝑠 𝑑𝑠でもあった.これを変形してみる ‒ 𝑞(𝑠)は勝手に作った分布だし,𝑝(𝑠)や𝑝(𝑜|𝑠)は生成モデルとしてAgentがもっている. ‒ よって,この式であれば実際に変分自由エネルギーが計算できる.
  15. 23 再構成誤差+KLDのLossは,変分自由エネルギーそのもの 実装例: Variational Autoencoder • 潜在変数の事前分布を標準正規分布と仮定 • Encoderが近似事後分布のパラメータを出力 •

    Decoderが観測モデルの平均を出力 • Loss = 再構成誤差 + KLD ‒ 変分自由エネルギーと同じ 観測データ 近似事後分布 事前分布 観測モデル Encoder Decoder KLD 再構成誤差 [Kingma+ 2013] Auto-Encoding Variational Bayes. ICLR 2014. [Kingma+ 2013]
  16. 24 エージェントは身体を介してのみ環境と相互作用する 実装例: Recurrent State Space Model 近似事後分布 状態遷移モデル 観測モデル

    過去の状態と行動を圧縮 • Dreamer V1~3で使用される世界モデルは, 行動と時間発展を考慮した生成モデルに なっている. • 変分自由エネルギーを損失関数として学習. [Hafner+ 2019] Learning Latent Dynamics for Planning from Pixels. ICML 2019. [Hafner+ 2019]
  17. 25 変分自由エネルギーを最小化することによって知覚・学習を実現 ここまでのまとめ • 生成モデル: 環境中で状態𝑠と観測𝑜が生成されるプロセスを確率的に表現 ‒ 「環境の法則はおそらくこうなっているだろう」というイメージ • 知覚:

    得られた観測𝑜から事後分布𝑝(𝑠|𝑜)を近似する𝑞(𝑠)を求める. • 学習: 環境に適合するようにに生成モデルを更新する. • 知覚と学習は,変分自由エネルギー𝐹を最小化することで実行される.
  18. 27 能動的推論 = 将来の自由エネルギーが下がるように行動する 能動的推論(Active Inference; AIF)とは • 知覚と学習: 過去~現在の観測と行動の履歴から,状態と環境の普遍的な法則を推論する.

    • 将来どのような行動をとるかによって環境の状態と得られるであろう観測が変化する. • Agentにとっては,学習した生成モデルが予期しない(=Fが大きくなる)観測が 入ってくるような状況は困る. ‒ そのような状況では,知覚による状態推論もうまくできなくなる. ‒ (学習によって生成モデルをうまく修正できれば何とかなることもある) • そこで,将来計算される変分自由エネルギーが小さくなることが期待されるような行動を 意図的に選ぶことによってそのような状況を避ける. • これまでの議論は変分推論そのものだったが,自由エネルギー原理の斬新なポイントは まだデータを得ていない将来のプランニングまで統一的に扱える点. • 環境から生成モデルによる推論に合った観測をサンプリングする → “能動的推論”
  19. 29 将来の観測の近似事後分布で期待値をとることで将来の𝐹を評価する 期待自由エネルギー • 将来の生成モデルと近似事後分布を用いた変分自由エネルギー: • これを計算するためには まだ得られていない将来の観測𝑜𝑡+1:𝑇 が必要. •

    そこで将来の観測𝑜𝑡+1:𝑇 も潜在変数とみなして 近似事後分布𝑞(𝑜𝑡+1:𝑇 )を導入し,期待値を評価する. ‒ これを期待自由エネルギー𝐺 𝑎𝑡:𝑇−1 と表す. ‒ Gが最小となるような将来の行動系列𝑎𝑡:𝑇−1 を求めればよい. [Friston+ 2017] Active Inference: A Process Theory. Neural Comput 2017; 29 (1): 1–49. [Friston+ 2017]
  20. 30 Agentは探索による情報獲得と活用による選好満足を両立して行動を決める 期待自由エネルギーの解釈(詳細な変形過程は省略) • 期待自由エネルギーは何を意味しているのか? → 変形してみる • Epistemic value(内在的価値)

    • 観測を得た前後での状態推定結果の変化量を表す. • 探索的行動による環境の状態についての知識獲得量を評価 • Extrinsic value(外在的価値) • ҧ 𝑝は将来得たい観測についての事前分布として,新しく定義する確率分布(事前選好). • 行動によって選好を満たす観測情報が得られる確率がどれだけ高いかを評価
  21. 32 事前選好の設定やEpistemic valueの推定方法はさまざま 期待自由エネルギーをどう計算する? • 事前選好 ҧ 𝑝をどのように設定する? ‒ ゴールとして目指す観測の確率値が高くなるような分布を与える.

    ‒ 強化学習のように,環境から与えられる報酬で置き換える. ‒ 過去の経験やエキスパートデータの観測分布を別途学習して使用する. • Epistemic valueをどのように推定する? • 世界モデルを用いて将来の観測を予測・サンプリングして, それを観測した体でKLDを計算する. • 強化学習で提案されている内発的報酬により置き換える. [Achiam+ 2016] [Pathak+ 2017] [Mendonca+ 2021] [Mazzaglia+ 2021] [Millidge 2020] [Yokozawa+ 2025] [Kim+ 2025] [Nguyen+ 2025] [Kawahara+ 2022]
  22. 33 RLへの帰着・サンプリングによって最適化を回避 最適な行動を求める方法 • 愚直にやるなら,期待自由エネルギーの微分値を計算して最適化すれば求まる. • しかし,実時間で自動微分による最適化問題を解くには計算量が大きすぎる. RL-based 手法 Sampling-based

    手法 • 平均場近似すると, 𝐺 は時刻ごとの総和になる. • −𝐺𝜏 を(内発的)報酬としてみなせば, −𝐺は行動系列𝑎𝑡:𝑇−1 での期待収益となる. • 強化学習に帰着させ, 𝜋 𝑎 𝑠 または𝜋 𝑎 𝑜 を学習する. • 行動系列𝑎𝑡:𝑇−1 のサンプルを複数個作り, それぞれに対してGを計算する. • 最も高いGを与えるものを選ぶか, からサンプリングする. [Mazzaglia+ 2021] [Kawahara+ 2022] [Fountas+ 2020] [Yokozawa+ 2025]
  23. 36 デモや報酬などの教師なしで環境の変化やOoDに適応してほしい 現在のロボット学習パラダイムと課題 • 模倣学習(Imitation learning; IL) ‒ 人が集めたデモンストレーションデータを再現するように学習する. ‒

    デプロイ後,環境の変化(光の加減,物体配置など)やout of distributionに弱い. • 強化学習(Reinforcement learning; RL) ‒ 自ら試行錯誤しながら報酬が得られる行動を発見する. ‒ 適切な報酬関数の設計が難しい. IL → RLでよりロバストにする事例も出てきている [Physical Intelligence+ 2025] 𝜋0.6 ∗ : a VLA That Learns From Experience. arXiv.
  24. 37 教師なしでの環境適応・効率向上の理論的基盤になりうる FEP・AIFの嬉しさ • 自由エネルギー原理・能動的推論の理論の中に, 環境や設計者から教師データとして与えられるものは存在しない. ‒ 事前選好 ҧ 𝑝を人手で設定・報酬に置き換える場合を除く.

    • 環境が変化した場合,観測と行動の履歴のみから生成モデルを更新することで対応できる. • ゼロからの教師なし学習や全く新しいタスクへの適応は難しくとも, ILやRLで学習した方策を環境適応や効率向上する方向に拡張することは可能ではないか? policy demo. data policy env. reward obs. policy env. reward world model obs. act. 𝑠, Ƹ 𝑟 policy env. world model obs. act. 𝑠, 𝐺 IL Model-free RL Model-based RL FEP + AIF
  25. 38 事前選好を自らの経験から獲得し,行動決定に使う 教示なし行動学習 • 事前選好ഥ 𝒑を正規化フローモデルとして実装し,過去に経験した観測の分布を推定する. • この選好を使って能動的推論を行うことで, 過去に多く経験した観測が今後も得られるように行動する(ホメオスタシス). ‒

    実験では,腕に刺激がないという多く経験する観測を目指すように, 腕に刺激が与えられたときにそれを取り除こうとする行動を自発的に獲得した. [Kim+ 2025] Emergence of Goal-Directed Behaviors via Active Inference with Self-Prior. arXiv.
  26. 39 Diffusion policyからの行動サンプルをAIFで評価 Diffusion policy × AIF • Diffusion policyと世界モデルを,人が操作して集めたデータであらかじめ学習しておく.

    • AIFによる行動選択の際に,Diffusion policyから候補となる行動系列を複数サンプリングする. ‒ Diffusionモデルの高品質かつ多様性を担保したサンプル精製能力を活用. • 画像観測からの移動ロボットのナビゲーションタスクに成功. [Yokozawa+ 2025] Deep Active Inference with Diffusion Policy and Multiple Timescale World Model for Real-World Exploration and Navigation. arXiv.
  27. 40 デモや学習済みpolicyの経験から事前選好を学習し,性能改善 低品質デモ/RL policyからの改善 • デモンストレーションやRLで学習したpolicyにより収集した観測系列から, 状態に関する事前選好の時系列モデル Recurrent State Prior

    Preference(RSSP)を学習. • さらに,成功/失敗に応じて各時刻の選好度合いを調整. • これにより低品質のデモやRL policyで集めたデータから,それらを超えた性能を探索的に実現. • Dreamer V3や他のAIF手法よりも学習が早く,性能もよい. [Nguyen+ 2025] SR-AIF: Solving Sparse-Reward Robotic Tasks From Pixels with Active Inference and World Models. ICRA 2025.
  28. 41 スケーリングにおける課題 • 画像などの高次元観測をより柔軟かつ高精細に扱えるモデルへの対応は未知. • Transformer・Diffusion model・Flow matchingなどをどう活用するか? • 継続的な学習に耐えうる仕組みが未発達

    • 破滅的忘却(新しい知識を学習すると古い知識が抜ける)をどうなくすか? • ロボットだからこその制約 • バッテリー残量やモータの消耗までセンシングしながら行動選択,とかできると面白いかも
  29. 43 自由エネルギー原理についてさらに学ぶには • 自由エネルギー原理入門 改め 自由エネルギー原理の基礎徹底解説 • https://pooneil.sakura.ne.jp/EFE_secALL0503.pdf • 最もわかりやすくかつ詳細な日本語解説

    • 能動的推論:心、脳、行動の自由エネルギー原理(ミネルヴァ書房) • https://www.minervashobo.co.jp/book/b607093.html • 【田澤右京】自由エネルギー原理 チュートリアル • https://www.youtube.com/watch?v=bCvVoHIlwZE