Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIアライメントの新たな地平: CPC理論から展望する人間とAIの協調的未来

Avatar for Yusuke Hayashi Yusuke Hayashi
June 09, 2025
10

AIアライメントの新たな地平: CPC理論から展望する人間とAIの協調的未来

Avatar for Yusuke Hayashi

Yusuke Hayashi

June 09, 2025
Tweet

Transcript

  1. Page. 1 Yusuke Hayashi || 2025.06.07 Y u s u

    k e H a y a s h i | | 2 0 2 5 . 0 1 . 1 3 P a g e . 0 AIアライメントの新たな地平: CPC理論から展望する人間とAIの協調的未来 Yusuke Hayashi (AI Alignment Network)
  2. Page. 4 Yusuke Hayashi || 2025.06.07 背景3: AGI開発は①サンフランシスコ,②北京〜上海のどちらかだけ https://openai.com/index/introducing-superalignment/ •

    OpenAIでは,AIによるAGI監視プロジェクト「SuperAlingnment」を推進(24/5月に解散) • そもそもAGIの開発を目指す一部企業,政府でないとAIアライメントは真剣な検討対象にならない (日本は,国内のAIガバナンス体制を整備し,米国から最先端のLLM,アライメントについて 情報を集めることに注力 <自身でAGIを開発する力は無い>) 日本は残念ながらAGI開発競争の トラックに乗ってすらいない
  3. Page. 5 Yusuke Hayashi || 2025.06.07 背景4: AGI開発できないプレイヤーは新興領域(安全,研究自動化)へ • カルフォルニア州議会へAI安全性法案(SB1047)を提出(米国)

    • 英国ARIA(国家プロジェクト)で進むセーフガードAIプロジェクトは予算110億円規模(英国) • 安全な超知能の開発を目指すssi.inc.をヒントンの愛弟子であるサツケバー氏が設立(米国) • ほとんどの研究者はAGI開発に関 与できない → 新興領域への流入 は必至 • AIアライメントは,政治と切り 離せない.誰にとってのアライ メントか?という問いは常に発 生 • 現状では,米国,中国それぞれ にとってのアライメントが優先 される可能性が高い
  4. Page. 7 Yusuke Hayashi || 2025.06.07 背景6: AGIの内部構造を知らなくてもアライメント研究は貢献可能 • OpenAIはo3公開前に,外部の研究者たちに安全性検証プロジェクトを公募

    https://openai.com/index/early-access-for-safety-testing/#how-to-apply • 今回,OpenAIが参照したAI安全性にかかる潜在 リスクは全て外部研究機関(METR,Apollo Research,UK AISI等)によるアライメント研究 • スケーリング則の延長を追求する研究と,AIの 内部構造の理解(機構的解釈可能性)やアライ メント研究は,ベクトルとしては直交とまでは 行かなくとも独立に近い
  5. Page. 8 Yusuke Hayashi || 2025.06.07 背景7: AIの急速な社会実装と新たな社会の様相 • 人工知能の急速な社会実装は、誤情報・偽情報の拡散や、オンライン情報の真偽・信頼性評価と

    いった現代社会における重要な課題を顕在化。平将明デジタル大臣の「これからの認知戦は攻めも 守りもAIが担うようになる」との発言に象徴されるように、情報の生成・拡散・評価の全てのプロ セスにAIが深く関与するようになった点において、これまでとは質的に異なる様相を見せ始めた。
  6. Page. 9 Yusuke Hayashi || 2025.06.07 ALIGNメンバー 9 髙橋 恒一Ph.D.

    代表 慶應義塾大学 特別招聘教授 理化学研究所 研究室主宰者 専門はAI for Science 金井 良太 Ph.D. 共同設立者 株式会社Araya 代表取締役 専門はAIと神経科学 藤澤 逸平 Ph.D. 理事 株式会社Araya 研究員 専門は物理学とAI 山川 宏 Ph.D. 理事 全脳アーキテクチャイニシアテ ィブ 代表 東京大学 主幹研究員 林 祐輔 理事 Humanity Brain 最高研究責任者 日本銀行出身 専門は物理学と機械学習 リサーチフェロー コミュニティメンバー 現在290名以上 コントリビューター Dan Hendrycks Ph.D. Center for AI Safety 外部アドバイザー スタッフ ほか交渉中 コアメンバー 丸山 隆一 COO (暫定) David Dalrymple ARIA
  7. Page. 10 Yusuke Hayashi || 2025.06.07 ALIGNメンバー 10 髙橋 恒一Ph.D.

    代表 慶應義塾大学 特別招聘教授 理化学研究所 研究室主宰者 専門はAI for Science 金井 良太 Ph.D. 共同設立者 株式会社Araya 代表取締役 専門はAIと神経科学 藤澤 逸平 Ph.D. 理事 株式会社Araya 研究員 専門は物理学とAI 山川 宏 Ph.D. 理事 全脳アーキテクチャイニシアテ ィブ 代表 東京大学 主幹研究員 林 祐輔 理事 Humanity Brain 最高研究責任者 日本銀行出身 専門は物理学と機械学習 リサーチフェロー コミュニティメンバー 現在290名以上 コントリビューター Dan Hendrycks Ph.D. Center for AI Safety 外部アドバイザー スタッフ ほか交渉中 コアメンバー 丸山 隆一 COO (暫定) David Dalrymple ARIA
  8. Page. 13 Yusuke Hayashi || 2025.06.07 1. 特異学習理論のレビュー モデルのパラメータ空間上に広がる損失地形の幾何に注目 引用)Liam

    Carroll. DSLT 1. The RLCT Measures the Effective Dimension of Neural Networks. https://www.lesswrong.com/s/czrXjvCLsqGepybHC/p/4eZtmwaqhAgdJQDEg, 2023. 汎化誤差 (KL-ダイバージェンス) 統計モデルの予測分布 最適パラメータ or 真のモデル の予測分布 統計モデル 統計モデルが(深層学習などの)非正則モデルの場合,汎化誤差の損失地形は一般に非凸 となる点が複数存在(特異点集合) 特異モデル(非正則モデル)
  9. Page. 14 Yusuke Hayashi || 2025.06.07 1. 特異学習理論のレビュー 正則モデル となる点はパラメータ空間上に

    1 点のみ となる点が複数存在(特異点集合) 特異モデル(非正則モデル) モデルのパラメータ空間上に広がる損失地形の幾何に注目 引用)Liam Carroll. DSLT 2. Why Neural Networks obey Occam's Razor. https://www.lesswrong.com/s/czrXjvCLsqGepybHC/p/CZHwwDd7t9aYra5HN, 2023.
  10. Page. 16 Yusuke Hayashi || 2025.06.07 1. 特異学習理論のレビュー Fisher情報量行列 行列が退化する条件

    パラメータの事後分布 パラメータ分布の“体積” 大域/局所最適解の近傍での “水位” の増加に対する体積の依存性 “水位” 特異モデル(非正則モデル) モデルのパラメータ空間上に広がる損失地形の幾何に注目 引用)Jesse Hoogland and Stan van Wingerden. You’re Measuring Model Complexity Wrong. https://www.lesswrong.com/posts/6g8cAftfQufLmFDYT/you-re-measuring-model-complexity-wrong, 2023.
  11. Page. 18 Yusuke Hayashi || 2025.06.07 “水位” 1. 特異学習理論のレビュー 正則モデル

    特異モデル(非正則モデル) モデルのパラメータ空間上に広がる損失地形の幾何に注目 引用)Jesse Hoogland and Stan van Wingerden. You’re Measuring Model Complexity Wrong. https://www.lesswrong.com/posts/6g8cAftfQufLmFDYT/you-re-measuring-model-complexity-wrong, 2023.
  12. Page. 19 Yusuke Hayashi || 2025.06.07 1. 特異学習理論のレビュー 分配関数 パラメータの事後分布

    経験誤差 経験分配関数 経験自由エネルギー モデルのパラメータ空間上に広がる損失地形の幾何に注目 学習係数は正則モデル,特異モデルの性能〜ある種の“賢さ”を表している 引用)Sumio Watanabe. Algebraic Geometry and Statistical Learning Theory. Cambridge Monographs on Applied and Computational Mathematics. CambridgeUniversity Press, 2009. doi: 10.1109/SOCPAR.2014.7008025.
  13. Page. 20 Yusuke Hayashi || 2025.06.07 1. 特異学習理論のレビュー モデルのパラメータ空間上に広がる損失地形の幾何に注目 ベイズ推論と確率的勾配降下法(SGD)

    パラメータ空間上でのベイズ更新のダイナミクス 特異モデル 正則モデル 引用)Jesse Hoogland, Alexander Gietelink Oldenziel, Daniel Murfet, Stan van Wingerden. Towards Developmental Interpretability. https://www.lesswrong.com/posts/TjaeCWvLZtEDAS5Ex/towards-developmental-interpretability, 2023. 引用2) Liam Carroll, Edmund Lau. Growth and Form in a Toy Model of Superposition. https://www.lesswrong.com/posts/jvGqQGDrYzZM4MyaN/growth-and-form-in-a-toy-model-of- superposition, 2023.
  14. Page. 21 Yusuke Hayashi || 2025.06.07 1. 特異学習理論のレビュー 特異点解消定理と学習係数 •

    実際に産業利用されている深層学習モデルの汎化誤差を解析的に求めることは困難 • トイモデルですらパラメータを使った汎化誤差の多項式表示は困難 • 汎化誤差の多項式表示を求める問題は,計算代数幾何学の領域における未解決問題 モデルのパラメータ空間上に広がる損失地形の幾何に注目
  15. Page. 22 Yusuke Hayashi || 2025.06.07 1. 特異学習理論からの機械論的解釈可能性の基礎づけ 引用)George Wang,

    Jesse Hoogland, Stan van Wingerden, Zach Furman, Daniel Murfet. Differentiation and Specialization of Attention Heads via the Refined Local Learning Coefficient, ICLR 2025.
  16. Page. 24 Yusuke Hayashi || 2025.06.07 2. AIエージェントの開発が加速し始めた 引用)George Wang,

    Jesse Hoogland, Stan van Wingerden, Zach Furman, Daniel Murfet. Differentiation and Specialization of Attention Heads via the Refined Local Learning Coefficient, ICLR 2025.
  17. Page. 26 Yusuke Hayashi || 2025.06.07 普遍的知能指数 : Legg-Hutter 知能指数

    • 「様々な環境下での報酬獲得能力」を,環境系の単純さで割引しつつ合計した知能指数 AIXI : Legg-Hutter 知能指数を最大化するAIエージェント • 普遍的帰納 ξ (Solomonoff universal prior, すべての計算可能な環境系に対して で重み付けする確率分布) つまり最適な事前分布(信念)を持ったBayesian強化学習エージェント 概要 • 世界をどう信じるか(ベイズ推論) • あり得るすべてのプログラム(=環境モデル)を並べ,プログラム長 K に応じた重み を掛ける。 • どう行動を選ぶか(逐次意思決定理論) • 各行動の先に待っている報酬をすべての仮説環境で評価し,重み付き平均が最大になる行動を選ぶ。 • これを毎ステップ繰り返し,割引率なしで生涯報酬を最大化する。 普遍的帰納 ξ は計算不可能!! 知性の尺度は様々: IQ, EQ, Gardner MI, … 2. 普遍的な知性の尺度?
  18. Page. 27 Yusuke Hayashi || 2025.06.07 AIXI が持つ最適戦略に漸近していく戦略を備えたBayesian強化学習エージェント • 「想像できるすべての計算可能な世界」

    を頭の中に展開し,その中で最も得をする行動だけを選び続ける ――ただし夢物語レベルでしか動かない究極エージェントに漸近していくAIエージェント Self-AIXIの報酬関数にはエンパワーメント最大化(自律性の強化)が含まれる 2. AIXIに至る道程 : Self-AIXI
  19. Page. 29 Yusuke Hayashi || 2025.06.07 • エンパワーメント最大化を行わないと(Legg-Hutter 知能指数の意味で最適な)AIXIには到達できない •

    つまり,AGIに到達するためにはAIエージェントの自律性を強化していく必要がある • 自律性を強化すると,AIエージェントはユーザーの指示に従わなくなる傾向がある(ジレンマ) 2. AGI開発のジレンマ
  20. Page. 30 Yusuke Hayashi || 2025.06.07 谷口忠大教授(京都大学)が2023年に提唱した全く新しいコミュニケーション理論 3. 新しいAIアライメントの地平:集合的予測符号化(Collective Predictive

    Coding) • 我々が他者と記号を介して意思疎通を測れるのは何故か? • 集団全体に信念が宿る,信念が形成されていくとはどういうことなのか? • 個体の信念形成は集団の信念形成とどのようにつながっていくのか?
  21. Page. 32 Yusuke Hayashi || 2025.06.07 Recent Breakthrough: International Recognition

    Begins • February 11th, 2025: Professor Tadahiro Taniguchi, delivered a presentation on CPC to Professor Karl Friston, the originator of the Free Energy Principle. Professor Friston offered enthusiastic praise to Professor Taniguchi. This marked the first major recognition from the Western theoretical neuroscience community. 3. 自由エネルギー原理の提唱者 Karl Friston 教授がCPCを激賞
  22. Page. 33 Yusuke Hayashi || 2025.06.07 frontiers誌で2024年度アウトスタンディングペーパーに選出,英国王立協会 OS誌にCPC-MS論文が掲載 • March

    15th, 2025: Collective Predictive Coding Hypothesis: Symbol Emergence as Decentralized Bayesian Inference (i.e., the paper on "the CPC hypothesis"), has been selected as one of the best papers (outstanding paper) of 2024 in Frontiers in Robotics and AI. 3. CPC理論の国際的な認知は広がりつつある