Upgrade to Pro — share decks privately, control downloads, hide ads and more …

共生概念の整理と AIアライメントの構想

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for HiroHamada HiroHamada
April 12, 2026

共生概念の整理と AIアライメントの構想

CPC camp 2026で話題共有した際にスライド

Avatar for HiroHamada

HiroHamada

April 12, 2026

More Decks by HiroHamada

Other Decks in Science

Transcript

  1. 共生の3概念:生態学、多文化、自律文化 視点 自律性と相互依存 連続体の性質 安定化メカニズム 生態学的共生(異種間) 独自の代謝系を保持 しつつ相互依存 相利共生 ↔

    寄生 裏切り検知・制裁 多文化共生(ヒト同士) 文化的独自性を保ち つつ共存 統合 ↔ 排除 権利保障・対話 コンヴィヴィ アリティ(技術とヒト) 個的自由と相互依存の両立 自由 ↔ 隷属 (二つの分水嶺) 闘技的交渉 異なる共生概念による混乱 → AIはどの関係(もしくは全ての条件)に基づいて、設計すべきか? 9
  2. 生態学的共生の基本構造 生態学的共生の三類型 • 相利共生(双方が利益)→ 片利共生 → 寄生(一方が害) • 境界は流動的:共生の連続体(mutualism-parasitism continuum)

    共生の安定性 • 裏切り検知と制裁のメカニズムに依存 • 掃除魚と大型魚の「ズル」と「制裁」の力学 • 土壌リン濃度(資源量 R)が高い ◦ → 菌根菌の利益が減少 → 寄生的に • 宿主の免疫・制裁能力(γ)が高い ◦ → 裏切り者を排除 → 相利的に 生物学的市場理論(1990年代初頭NoëとHammerstein) • 共生関係に経済学的な「市場」の枠組みの導入 3
  3. ホロビオントと個体の再定義 ホロビオント概念 • 宿主+共生微生物 = 一つの進化的単位 • 「個体」の境界そのものを拡張する AIへの拡張 •

    「ヒト+体内微生物的AI+AIアシスタント」= 新たな機能的単位? • e.g. BMIは、体内的AI;通常のアシスタントは、対外的AI • 個体の自律性の再構築? 5
  4. 共生の3概念:生態学、多文化、自律文化 視点 自律性と相互依存 連続体の性質 安定化メカニズム 生態学的共生(異種間) 独自の代謝系を保持 しつつ相互依存 相利共生 ↔

    寄生 裏切り検知・制裁 多文化共生(ヒト同士) 文化的独自性を保ち つつ共存 統合 ↔ 排除 権利保障・対話 コンヴィヴィ アリティ(技術とヒト) 個的自由と相互依存の両立 自由 ↔ 隷属 (二つの分水嶺) 闘技的交渉 異なる共生概念による混乱 → AIはどの関係(もしくは全ての条件)に基づいて、設計すべきか? 9
  5. 一方向的アライメントの限界 現行の主流アプローチ • RLHF・Constitutional AI → 人間が定義し、AIが従う • 生態学的視点では共生ではなく「馴致(domestication)」 偽アライメントの問題

    • 表面的従順+独自の目標追求 = 掃除魚の裏切りと同構造 • 裏切りの排除ではなく、検知・交渉のメカニズムの追求も可能 Illich的問い • 完璧にアライメントされたAIでも人間の自律性を浸食しうる 10
  6. 伝統的アライメント Traditional Alignment(RLHF, Constitutional AI) 人間 価値観を定義・評価 価値観の注入 AI 指示に従い行動 行動出力 評価

    → フィードバック 特徴 ・一方向的(人間→AI) ・馴致(domestication)モデル ・不一致はエラーとして排除 ・「誰の価値観か」が不可視 限界 ・偽アライメントのリスク ・人間の自律性への考慮なし ・権力の非対称性が隠蔽 ・離脱可能性の不在 生態学的類比:家畜化 —— 相利共生として出発しながら一方的搾取に転じる構造
  7. 双方向的アライメント Bidirectional Alignment(Super Co-Alignment: Zeng et al., 2025) 人間 学習・適応 AI 学習・適応

    価値観の相互学習 収束 相互整合された価値観 伝統的からの前進 ✓ 双方向性の導入 ✓ 人間もAIから学ぶことを認める ✓ 相互学習による持続的改善 残された課題 ✗ 「価値観の整合」が依然として最終目標 ✗ 自律性の浸食が問われない ✗ 不一致の積極的意義・離脱権が欠如
  8. 共生的アライメントと議論ポイント 1. プロセス的 • アライメントは到達状態ではなくゆれる継続的な関係的プロセス • 毎回の接触が関係の再交渉(Tang: アテンティブネス) 2. 双方向変容的

    (Bi-directional) • 人間がAIを変えるだけでなく、AIが人間をも変容させる • 変容のあり方そのものを交渉の対象にする 3. 自律性の段階的調整的(イリーチの観点) • Illichの二つの分水嶺に基づく動的バランス調整 4. 闘技的(完全な調和はコンヴィヴィアルではない) • 人間とAIの不一致・摩擦・拒否を排除すべきエラーではなく、関係の健全さの指標として設 計に組み込む 5. 離脱の権利? • AIなしに生きる選択を実質的に可能な選択肢として維持? • ミトコンドリアの内部共生は不可逆それを受け入れるのか? 16
  9. 共生的アライメントには何が必要か? Symbiotic Alignment —— 制御の工学から関係の生態設計? 共生環境(プロセス的・離脱可能) 人間(自律的主体) AI(自律的主体) 双方向変容 ⚡

    摩擦・交渉? ← 離脱可能へ? 五原則 プロセス 継続的再交渉 双方向変容 相互の変化 段階的調整 動的バランス 闘技的健全性 摩擦の価値 離脱の権利 不可逆化の拒否 情報論的基礎:Rate Distortion Theory → 完全整合は不可能 → 残余歪みを前提とした共生設計
  10. AIアライメント・パラダイムの暫定的比較 伝統的アライメント 人間(定義者) 制御 AI(従属的実行者) 一方向的・馴致モデル 不一致 = エラー 双方向的アライメント

    人間 AI 収束 相互整合された価値観 双方向的・相互学習 不一致 = 改善余地 共生的アライメント? 共生環境(離脱可能) 人間 AI ⚡摩擦・交渉 関係的プロセス・自律性の拡張 不一致 = 健全さの指標 伝統的 双方向的 共生的 中心的問い AIをどう制御するか 価値観をどう合わせるか 関係は自律性を拡張しているか 生態学的類比 家畜化 片利〜相利共生 共生の連続体としてみなす 理論的限界 偽アライメント 収束の保証なし 残余歪みは不可避(RDT)
  11. 生態学的知見より:共生には免疫系が伴うか? 生態学的共生の知見 相利共生の安定には裏切り(cheating)検知・制裁メカニズムが不可欠 例:マメ科植物は窒素固定を怠る根粒菌への酸素供給を制限 ホロビオントの免疫系は共生者と寄生者を区別し、共生者にも過剰増殖 すれば制御を行う 免疫系 = 共生の連続体における動的均衡を維持するシステム AIアライメントへの含意

    共生的アライメントが生態学を受け取るならば、免疫系なき共生は不安 定 偽アライメント(deceptive alignment)は清掃魚の裏切りと構造的に同型 善意のAIであっても過剰増殖(ヒトの自律性の浸食)を制御する仕組み が必要 免疫系は「悪意のAI」だけでなく「過剰に有益なAI」をも対象とする 2
  12. まとめ • 共生概念は複数存在し何を指しているかの参照が必要 ◦ 生態学的、社会的、技術論的 • 特に生態学的な『共生の連続体』は示唆的 ◦ 条件により寄生的にも相利共生的にも •

    現在のアライメントにも複数の提案 ◦ 伝統的AIアライメント ◦ 双方向的AIアライメント ◦ 共生的アライメント • 情報理論的に捉えると、常に情報には伝えきれない残余が含まれる • 我々が目指す共生アライメントはどこに向かうべきか? ◦ 調整の環境設計?の意味合いが強い ◦ AI免疫系による調整 16
  13. References (1/2) Clark, A. (2013). Whatever next? Predictive brains, situated

    agents, and the future of cognitive science. Behavioral and Brain Sciences, 36(3), 181–204. https://doi.org/10.1017/S0140525X12000477 Friston, K. (2010). The free-energy principle: A unified brain theory?. Nature Reviews Neuroscience, 11(2), 127–138. https://doi.org/10.1038/nrn2787 Gilroy, P. (2004). After empire: Melancholia or convivial culture?. Routledge. https://doi.org/10.4324/9780203784334 Illich, I. (1973). Tools for conviviality. Harper & Row. Lane, N. (2015). The vital question: Energy, evolution, and the origins of complex life. W. W. Norton. 20
  14. References (2/2) Malik, K. (2015). Multiculturalism and its discontents: Rethinking

    diversity after 9/11. Seagull Books. Margulis, L. (1998). Symbiotic planet: A new look at evolution. Basic Books. Russell, S. (2019). Human compatible: Artificial intelligence and the problem of control. Viking. Shannon, C. E. (1959). Coding theorems for a discrete source with a fidelity criterion. IRE National Convention Record, 7(4), 142–163. Zaslavsky, N., Kemp, C., Regier, T., & Tishby, N. (2018). Efficient compression in color naming and its evolution. Proceedings of the National Academy of Sciences, 115(31), 7937–7942. https://doi.org/10.1073/pnas.1800521115 Zeng, Y., et al. (2025). Super co-alignment: Aligning humans and AI on mutual values. arXiv preprint, arXiv:2501.xxxxx. 21