論文紹介[ICLR2025 Poster] PhiNets: Brain-inspired Non-contrastive Learning Based on Temporal Prediction Hypothesis

紹介者：立命館大学情報理工学部講師谷口彰第20回BIIセミナー（オンライン）2025/06/11 論文紹介 [ICLR2025 Poster]
PhiNets: Brain-inspired Non-contrastive Learning Based on Temporal Prediction Hypothesis 著者：Satoki Ishikawa, Makoto Yamada, Han Bao, Yuki Takezawa https://arxiv.org/abs/2405.14650 https://openreview.net/forum?id=5tjdRyqnSn

自己紹介氏名：谷口彰職位：講師所属：立命館大学情報理工学部情報理工学科知能情報コース
略歴 ◆ 2018年 3月立命館大学大学院情報理工学研究科博士後期課程修了博士（工学） ◆ 2017年 4月～2019年 3月日本学術振興会特別研究員 (DC2, PD) ◆ 2019年 4月～2022年 3月立命館大学情報理工学部特任助教 ◆ 2022年 4月～立命館大学情報理工学部講師主な研究テーマ：「確率的生成モデルに基づくロボットによる場所概念・語彙の獲得と活用」 ➢ 位置情報・言語情報・画像情報などのロボットのマルチモーダル情報からの場所概念（場所のカテゴリ）の形成や空間的語彙の獲得と，それらの実世界タスクへの活用を目指す研究． ➢ 記号創発ロボティクス，知能ロボティクス，人工知能，機械学習，ロボット学習，Brain-inspired AI 2

論文著者紹介 • Satoki Ishikawa – 東京科学大 • Makoto Yamada →
– OIST 機械学習とデータ科学ユニットPI – https://groups.oist.jp/ja/mlds/makoto-yamada • Han Bao – 包含（統計数理研究所先端データサイエンス研究系） – https://hermite.jp/ • Yuki Takezawa – 竹澤祐貴（京都大学/ OIST） – https://researchmap.jp/yukitakezawa OIST Machine Learning and Data Science Unit 3

前提：SimSiam • ネガティブペアを必要とせずに、対比タスクによって自己教師あり学習を行う手法の一つ – （非）対照学習（自己蒸留） • 非対称な
Siamese Network – 片方にだけPredictor – もう片方は勾配を止める • データ拡張によって1枚の画像から生成された異なる画像をそれぞれ入力 • 表現学習・特徴量空間の構築に利用 4 Chen, Xinlei, and Kaiming He. "Exploring simple siamese representation learning." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.

Self-Supervised Learning 5 https://www.guruguru.science/competitions/17/discus sions/a39d588e-aff2-4728-8323-b07f15563552/

背景：脳に着想を得た学習理論 • 予測符号化（Predictive Coding） – 脳が知覚情報を処理する際、入力を予測し、誤差を最小化する仕組みがあるという理論 – 大脳皮質は、予測誤差を最小化するために感覚入力を予測する – 視覚野や網膜、皮質における情報処理に関する有望な神経科学理論
• 時間的予測仮説（Temporal Prediction Hypothesis） – Chenら（2024）が提唱した仮説で、海馬（hippocampus）のCA3とCA1領域が、時間的にずれた入力を予測しあう構造として機能しているという仮説 – 海馬におけるシーケンス記憶は、過去の感覚入力を予測することで生じる – CA3 はシナプス遅延（synaptic delay）を生じ、CA1 予測器によって補正される – この仮説を自己教師あり学習のフレームワークに取り入れようというのが本研究の出発点 • 時間的予測仮説を自己教師あり学習（Self-Supervised Learning: SSL）の視点から検証 – StopGradient操作によって暗黙的にシナプス遅延を導入する 6

3 PHINETS (Φ-NETS) • SimSiamという既存の非対比的自己教師あり学習モデルを拡張 • PhiNet: 2つの予測器を備えた改変SimSiamアーキテクチャ
– CA3領域は予測器ネットワークℎでモデル化され、将来の信号を予測する役割を担う。 – CA1領域は、予測信号と将来の入力信号の差を測定する損失関数と、独立した予測器𝑔を組み合わせることでモデル化される。 • X-PhiNet: PhiNet + momentum encoder (𝑓long ) – 新皮質における長期記憶を表し、 complementary learning system theoryにインスパイアされている。 – 𝑓long はエンコーダー f の指数移動平均 (EMA) で更新され、長期記憶の安定性を促進する。 7

PhiNetの構造と着想 • CA3領域はECからの入力信号を受け、再帰的に将来の信号を予測する。 • CA3の予測出力はCA1領域に伝搬され、CA1領域はCA3予測値とEC入力の不一致を計算し、CA3に保存された内部モデルを改良する。 •
EC-CA3とEC-CA1間の時間差を補正することで、海馬における時間系列の学習と再生が促進されると考えられる。 • モデル構成（図1と図2（ページ4）） – Encoder（f）：皮質（cortex）に相当 – Predictor h（CA3に対応）：入力を時間的に遅延させて予測 – Predictor g（CA1に対応）：予測と実際の入力の誤差を測定・補正 – StopGradient：時間的な遅れを模倣 – X-PhiNet：長期記憶としてモーメンタムエンコーダ（EMA）を導入（新皮質に相当） • これにより、脳の記憶システム（短期記憶＝海馬、長期記憶＝新皮質）を模倣する構造が形成 8

アーキテクチャの違い • Predictorと非対称なencoderが増えただけ＋EMAと呼ばれる機構 9

海馬体BIFとの比較 10 表現学習という意味では、 BIFとの対応付けは、LEC側の方がより適しているかも

技術的要点 • 学習損失関数： 2つの損失を最小化することで統合学習を実現 – Sim-1（短期記憶）：CA3の予測と遅延した入力の比較（負のコサイン類似度） – Sim-2（長期記憶）：CA1の出力と元の入力の比較（MSEまたは負のコサイン類似度） •
学習ダイナミクスの解析 – SimSiamは表現が崩壊（同一出力になる）しやすい問題がある – PhiNetでは2つ目の予測器 g を導入することで、崩壊の回避が理論的にも確認されている • 安定性 – PhiNet は、SimSiam よりも重みの初期化および減衰に対して堅牢 • 補完的学習システム (CLS) 理論との統合 – X-PhiNet は、長期記憶を処理するモーメンタムエンコーダーを導入 – オンライン学習および継続的学習のシナリオにおけるパフォーマンスが向上 11

3.1 FAST LEARNING BASED ON TEMPORAL PREDICTION HYPOTHESIS 12

3.1 FAST LEARNING BASED ON TEMPORAL PREDICTION HYPOTHESIS • ここまではSimSiamと同じ
• （１）と（２）は左右入れ替えて同じ処理が行われる 13

14 3.1 FAST LEARNING BASED ON TEMPORAL PREDICTION HYPOTHESIS •
predictorの処理が入る分、左側の方が時間的に遅れそうな気もするが、そうではない • ＸはECに同じタイミングで入ってくるが、右側は使われるencoderが1時刻前の物になる • Backpropagationは学習時のパラメータ更新に使われるため、フォワードな処理の経路とは違う気がするが。 ➢ この論文で言っている「時間差」は学習におけるパラメータ更新タイミングの違い

OpenReview (AIによる日本語訳) 15 https://openreview.net/forum? id=5tjdRyqnSn

3.2 INCORPORATING SLOW LEARNING MECHANISM • この場合はencoder f は同じ 16
←コサイン類似度ではなく 2乗誤差になっている

3.2 INCORPORATING SLOW LEARNING MECHANISM • 𝑓 とは異なる𝑓long を用意 •
𝑓 と𝑓long のモデルパラメータを両方使って𝑓long のモデルパラメータを更新 17

4 WHAT WE BENEFIT FROM ADDITIONAL CA1 PREDICTOR: LEARNING DYNAMICS
PERSPECTIVE PhiNet を SimSiam と比較すると、CA1 の追加予測変数 g が特徴的である。トイモデルを用いて PhiNet の学習ダイナミクスを調査した。その単純さにもかかわらず、ダイナミクス分析は、予測変数 g が完全な崩壊を効果的に防止する仕組みを明らかにする上で有益である。 18

PERSPECTIVE 19

PERSPECTIVE 20

22 4 WHAT WE BENEFIT FROM ADDITIONAL CA1 PREDICTOR: LEARNING
DYNAMICS PERSPECTIVE

23 4 WHAT WE BENEFIT FROM ADDITIONAL CA1 PREDICTOR: LEARNING
DYNAMICS PERSPECTIVE 分岐非崩壊（non-collapsed）解への収束領域が広い負の初期値ψでも崩壊を回避可能

Experiment (5.1) • Linear Probing Analysis – 目的：PhiNet からの表現品質を評価 –
バックボーン：ResNet-18、PhiNet および SimSiam でトレーニング – データセット：ImageNet-100 および CIFAR-10 – 指標：線形分類器による Top-1 Accuracy • 結果 – PhiNet は SimSiam と同等以上の正確度を達成 – PhiNetの性能は、幅広い重み減衰値において安定（特に学習初期） – 崩壊回避性能に優れている 24

Experiment (5.2) • オンライン学習と継続学習 – 目的：ストリーミング入力下での PhiNet の表現保持能力を検証する。 – 設定：
• データセット：CIFAR-5m、500 万枚の画像 • モデル：PhiNet、SimSiam、BYOL、MoCo – 指標：精度(Acc)および忘却(Fg) • 結果 – 精度：X-PhiNetはストリーミング設定下で全てのベースラインを上回る – 忘却：X-PhiNetは時間経過に伴う忘却が少なかった。 – 新しいデータへの適応性と頑健性を示した 25

実験結果と評価まとめ • CIFAR10 / ImageNet を用いた実験 – PhiNetはSimSiamと比較してより安定し、重み減衰（weight decay）に
対して頑健 – 特に小さいバッチサイズや早期学習段階での性能が安定 • 継続学習・オンライン学習への応用 – CIFAR-5mやSplit-CIFARデータセットで評価 – X-PhiNetは忘却（forgetting）を抑制しつつ高精度を維持 • 転移学習にも有効（ページ24） – VOCオブジェクト検出タスクにおいても、SimSiamやMoCoに匹敵する性能 26

限界と今後の課題 • バックプロパゲーションの使用 – 本研究は脳の構造に着想を得ているが、脳とは異なり誤差逆伝播を使用している。 • 再帰構造（Recurrent Structure）の欠如 –
時間的系列データの学習には今後対応予定→PhiNet v2 • 損失関数の選択 – Sim-2において、MSEとコサイン損失のどちらが適切かは依然として課題 27

PhiNet v2 28 バックボーンをResNetからTransformerに変えた PhiNetは静的画像入力しか扱えなかったが，PhiNetV2は画像シーケンスを扱える海馬との対応としては、CA1領野のアーキテクチャ拡張（＋時間差のある入力データ） https://arxiv.org/abs/2505.11129

5 EXPERIMENTS 29

論文紹介[ICLR2025 Poster] PhiNets: Brain-inspired N...

論文紹介[ICLR2025 Poster] PhiNets: Brain-inspired Non-contrastive Learning Based on Temporal Prediction Hypothesis

Akira Taniguchi

More Decks by Akira Taniguchi

Other Decks in Research

Featured

Transcript

紹介者：立命館大学情報理工学部講師谷口彰第20回BIIセミナー（オンライン）2025/06/11 論文紹介 [ICLR2025 Poster]

自己紹介氏名：谷口彰職位：講師所属：立命館大学情報理工学部情報理工学科知能情報コース

論文著者紹介 • Satoki Ishikawa – 東京科学大 • Makoto Yamada →

前提：SimSiam • ネガティブペアを必要とせずに、対比タスクによって自己教師あり学習を行う手法の一つ – （非）対照学習（自己蒸留） • 非対称な

Self-Supervised Learning 5 https://www.guruguru.science/competitions/17/discus sions/a39d588e-aff2-4728-8323-b07f15563552/

3 PHINETS (Φ-NETS) • SimSiamという既存の非対比的自己教師あり学習モデルを拡張 • PhiNet: 2つの予測器を備えた改変SimSiamアーキテクチャ

PhiNetの構造と着想 • CA3領域はECからの入力信号を受け、再帰的に将来の信号を予測する。 • CA3の予測出力はCA1領域に伝搬され、CA1領域はCA3予測値とEC入力の不一致を計算し、CA3に保存された内部モデルを改良する。 •

アーキテクチャの違い • Predictorと非対称なencoderが増えただけ＋EMAと呼ばれる機構 9

海馬体BIFとの比較 10 表現学習という意味では、 BIFとの対応付けは、LEC側の方がより適しているかも

3.1 FAST LEARNING BASED ON TEMPORAL PREDICTION HYPOTHESIS 12

3.1 FAST LEARNING BASED ON TEMPORAL PREDICTION HYPOTHESIS • ここまではSimSiamと同じ

14 3.1 FAST LEARNING BASED ON TEMPORAL PREDICTION HYPOTHESIS •

OpenReview (AIによる日本語訳) 15 https://openreview.net/forum? id=5tjdRyqnSn

3.2 INCORPORATING SLOW LEARNING MECHANISM • この場合はencoder f は同じ 16

3.2 INCORPORATING SLOW LEARNING MECHANISM • 𝑓 とは異なる𝑓long を用意 •

4 WHAT WE BENEFIT FROM ADDITIONAL CA1 PREDICTOR: LEARNING DYNAMICS

4 WHAT WE BENEFIT FROM ADDITIONAL CA1 PREDICTOR: LEARNING DYNAMICS

4 WHAT WE BENEFIT FROM ADDITIONAL CA1 PREDICTOR: LEARNING DYNAMICS

21

22 4 WHAT WE BENEFIT FROM ADDITIONAL CA1 PREDICTOR: LEARNING

23 4 WHAT WE BENEFIT FROM ADDITIONAL CA1 PREDICTOR: LEARNING

Experiment (5.1) • Linear Probing Analysis – 目的：PhiNet からの表現品質を評価 –

Experiment (5.2) • オンライン学習と継続学習 – 目的：ストリーミング入力下での PhiNet の表現保持能力を検証する。 – 設定：

実験結果と評価まとめ • CIFAR10 / ImageNet を用いた実験 – PhiNetはSimSiamと比較してより安定し、重み減衰（weight decay）に

限界と今後の課題 • バックプロパゲーションの使用 – 本研究は脳の構造に着想を得ているが、脳とは異なり誤差逆伝播を使用している。 • 再帰構造（Recurrent Structure）の欠如 –

5 EXPERIMENTS 29

30

31

32