Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介[ICLR2025 Poster] PhiNets: Brain-inspired N...

論文紹介[ICLR2025 Poster] PhiNets: Brain-inspired Non-contrastive Learning Based on Temporal Prediction Hypothesis

論文紹介[ICLR2025 Poster]
PhiNets: Brain-inspired Non-contrastive Learning Based on Temporal Prediction Hypothesis
著者:Satoki Ishikawa, Makoto Yamada, Han Bao, Yuki Takezawa

https://arxiv.org/abs/2405.14650
https://openreview.net/forum?id=5tjdRyqnSn

第20回BIIセミナー(オンライン)2025/06/11

Avatar for Akira Taniguchi

Akira Taniguchi

February 14, 2026
Tweet

More Decks by Akira Taniguchi

Other Decks in Research

Transcript

  1. 紹介者: 立命館大学 情報理工学部 講師 谷口 彰 第20回BIIセミナー(オンライン)2025/06/11 論文紹介 [ICLR2025 Poster]

    PhiNets: Brain-inspired Non-contrastive Learning Based on Temporal Prediction Hypothesis 著者:Satoki Ishikawa, Makoto Yamada, Han Bao, Yuki Takezawa https://arxiv.org/abs/2405.14650 https://openreview.net/forum?id=5tjdRyqnSn
  2. 自己紹介 氏名: 谷口 彰 職位:講師 所属: 立命館大学 情報理工学部 情報理工学科 知能情報コース

    略歴 ◆ 2018年 3月 立命館大学大学院 情報理工学研究科 博士後期課程 修了 博士(工学) ◆ 2017年 4月~2019年 3月 日本学術振興会 特別研究員 (DC2, PD) ◆ 2019年 4月~2022年 3月 立命館大学 情報理工学部 特任助教 ◆ 2022年 4月~ 立命館大学 情報理工学部 講師 主な研究テーマ:「確率的生成モデルに基づくロボットによる場所概念・語彙の獲得と活用」 ➢ 位置情報・言語情報・画像情報などのロボットのマルチモーダル情報からの場所概念(場所のカテゴリ)の 形成や空間的語彙の獲得と,それらの実世界タスクへの活用を目指す研究. ➢ 記号創発ロボティクス,知能ロボティクス,人工知能,機械学習,ロボット学習,Brain-inspired AI 2
  3. 論文著者紹介 • Satoki Ishikawa – 東京科学大 • Makoto Yamada →

    – OIST 機械学習とデータ科学ユニットPI – https://groups.oist.jp/ja/mlds/makoto-yamada • Han Bao – 包 含(統計数理研究所 先端データサイエンス研究系) – https://hermite.jp/ • Yuki Takezawa – 竹澤 祐貴(京都大学/ OIST) – https://researchmap.jp/yukitakezawa OIST Machine Learning and Data Science Unit 3
  4. 前提:SimSiam • ネガティブペアを必要とせず に、対比タスクによって自己 教師あり学習を行う手法の一 つ – (非)対照学習(自己蒸留) • 非対称な

    Siamese Network – 片方にだけPredictor – もう片方は勾配を止める • データ拡張によって1枚の画像 から生成された異なる画像を それぞれ入力 • 表現学習・特徴量空間の構築 に利用 4 Chen, Xinlei, and Kaiming He. "Exploring simple siamese representation learning." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.
  5. 背景:脳に着想を得た学習理論 • 予測符号化(Predictive Coding) – 脳が知覚情報を処理する際、入力を予測し、誤差を最小化する仕組みがあるという理論 – 大脳皮質は、予測誤差を最小化するために感覚入力を予測する – 視覚野や網膜、皮質における情報処理に関する有望な神経科学理論

    • 時間的予測仮説(Temporal Prediction Hypothesis) – Chenら(2024)が提唱した仮説で、海馬(hippocampus)のCA3とCA1領域が、時間 的にずれた入力を予測しあう構造として機能しているという仮説 – 海馬におけるシーケンス記憶は、過去の感覚入力を予測することで生じる – CA3 はシナプス遅延(synaptic delay)を生じ、CA1 予測器によって補正される – この仮説を自己教師あり学習のフレームワークに取り入れようというのが本研究の出発 点 • 時間的予測仮説を自己教師あり学習(Self-Supervised Learning: SSL)の 視点から検証 – StopGradient操作によって暗黙的にシナプス遅延を導入する 6
  6. 3 PHINETS (Φ-NETS) • SimSiamという既存の非対比的自己教師あり学習 モデルを拡張 • PhiNet: 2つの予測器を備えた改変SimSiamアーキ テクチャ

    – CA3領域は予測器ネットワークℎでモデル化され、将来の信号を予 測する役割を担う。 – CA1領域は、予測信号と将来の入力信号の差を測定する損失関数と、 独立した予測器𝑔を組み合わせることでモデル化される。 • X-PhiNet: PhiNet + momentum encoder (𝑓long ) – 新皮質における長期記憶を表し、 complementary learning system theoryにインスパイアされている。 – 𝑓long はエンコーダー f の指数移動平均 (EMA) で更新され、長期記 憶の安定性を促進する。 7
  7. PhiNetの構造と着想 • CA3領域はECからの入力信号を受け、再帰的に将来の信号を 予測する。 • CA3の予測出力はCA1領 域に伝搬され、CA1領域はCA3予測値 とEC入力の不一致を計算し、CA3に保存された内部モデルを 改良する。 •

    EC-CA3とEC-CA1間の時間差を補正することで、海馬におけ る時間系列の学習と再生が促進されると考えられる。 • モデル構成(図1と図2(ページ4)) – Encoder(f):皮質(cortex)に相当 – Predictor h(CA3に対応):入力を時間的に遅延させて予測 – Predictor g(CA1に対応):予測と実際の入力の誤差を測定・補正 – StopGradient:時間的な遅れを模倣 – X-PhiNet:長期記憶としてモーメンタムエンコーダ(EMA)を導入 (新皮質に相当) • これにより、脳の記憶システム(短期記憶=海馬、長期記憶 =新皮質)を模倣する構造が形成 8
  8. 技術的要点 • 学習損失関数: 2つの損失を最小化することで統合学習を実現 – Sim-1(短期記憶):CA3の予測と遅延した入力の比較(負のコサイン類似度) – Sim-2(長期記憶):CA1の出力と元の入力の比較(MSEまたは負のコサイン類 似度) •

    学習ダイナミクスの解析 – SimSiamは表現が崩壊(同一出力になる)しやすい問題がある – PhiNetでは2つ目の予測器 g を導入することで、崩壊の回避が理論的にも確認さ れている • 安定性 – PhiNet は、SimSiam よりも重みの初期化および減衰に対して堅牢 • 補完的学習システム (CLS) 理論との統合 – X-PhiNet は、長期記憶を処理するモーメンタムエンコーダーを導入 – オンライン学習および継続的学習のシナリオにおけるパフォーマンスが向上 11
  9. 3.1 FAST LEARNING BASED ON TEMPORAL PREDICTION HYPOTHESIS • ここまではSimSiamと同じ

    • (1)と(2)は左右入れ替 えて同じ処理が行われる 13
  10. 14 3.1 FAST LEARNING BASED ON TEMPORAL PREDICTION HYPOTHESIS •

    predictorの処理が入る分、左側の方が時間的に遅れそうな気もするが、そうではない • XはECに同じタイミングで入ってくるが、右側は使われるencoderが1時刻前の物になる • Backpropagationは学習時のパラメータ更新に使われるため、フォワードな処理の経路とは違う気がするが。 ➢ この論文で言っている「時間差」は学習におけるパラメータ更新タイミングの違い
  11. 3.2 INCORPORATING SLOW LEARNING MECHANISM • この場合はencoder f は同じ 16

    ←コサイン類似度ではなく 2乗誤差になっている
  12. 3.2 INCORPORATING SLOW LEARNING MECHANISM • 𝑓 とは異なる𝑓long を用意 •

    𝑓 と𝑓long のモデルパラメータを両方使って𝑓long のモデルパラ メータを更新 17
  13. 4 WHAT WE BENEFIT FROM ADDITIONAL CA1 PREDICTOR: LEARNING DYNAMICS

    PERSPECTIVE PhiNet を SimSiam と比較すると、CA1 の追加予測変数 g が特徴的である。 トイモデルを用いて PhiNet の学習ダイナミクスを調査した。その単純さにもかかわらず、ダイナミクス 分析は、予測変数 g が完全な崩壊を効果的に防止する仕組みを明らかにする上で有益である。 18
  14. 21

  15. 23 4 WHAT WE BENEFIT FROM ADDITIONAL CA1 PREDICTOR: LEARNING

    DYNAMICS PERSPECTIVE 分岐 非崩壊(non-collapsed)解への収束領域が広い 負の初期値ψでも崩壊を回避可能
  16. Experiment (5.1) • Linear Probing Analysis – 目的:PhiNet からの表現品質を評価 –

    バックボーン:ResNet-18、PhiNet および SimSiam でトレーニング – データセット:ImageNet-100 および CIFAR-10 – 指標:線形分類器による Top-1 Accuracy • 結果 – PhiNet は SimSiam と同等以上の正確度を達成 – PhiNetの性能は、幅広い重み減衰値において安定(特に学習初期) – 崩壊回避性能に優れている 24
  17. Experiment (5.2) • オンライン学習と継続学習 – 目的:ストリーミング入力下での PhiNet の表現保持能力を検証する。 – 設定:

    • データセット:CIFAR-5m、500 万枚の画像 • モデル:PhiNet、SimSiam、BYOL、MoCo – 指標:精度(Acc)および忘却(Fg) • 結果 – 精度:X-PhiNetはストリーミング設 定下で全てのベースラインを上回る – 忘却:X-PhiNetは時間経過に伴う忘 却が少なかった。 – 新しいデータへの適応性と頑健性を示 した 25
  18. 実験結果と評価 まとめ • CIFAR10 / ImageNet を用いた実験 – PhiNetはSimSiamと比較してより安定し、重み減衰(weight decay)に

    対して頑健 – 特に小さいバッチサイズや早期学習段階での性能が安定 • 継続学習・オンライン学習への応用 – CIFAR-5mやSplit-CIFARデータセットで評価 – X-PhiNetは忘却(forgetting)を抑制しつつ高精度を維持 • 転移学習にも有効(ページ24) – VOCオブジェクト検出タスクにおいても、SimSiamやMoCoに匹敵する性 能 26
  19. 限界と今後の課題 • バックプロパゲーションの使用 – 本研究は脳の構造に着想を得ているが、脳とは異なり誤差逆伝播を使用 している。 • 再帰構造(Recurrent Structure)の欠如 –

    時間的系列データの学習には今後対応予定→PhiNet v2 • 損失関数の選択 – Sim-2において、MSEとコサイン損失のどちらが適切かは依然として課題 27
  20. 30

  21. 31

  22. 32