Upgrade to Pro — share decks privately, control downloads, hide ads and more …

表現幾何による AIアライメントと機械組織

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for HiroHamada HiroHamada
June 12, 2025
46

表現幾何による AIアライメントと機械組織

Avatar for HiroHamada

HiroHamada

June 12, 2025
Tweet

More Decks by HiroHamada

Transcript

  1. © 2020 AIアライメント [Collin et al., 2023] 弱いモデルによるより強いモデルの操作 [Collin et

    al., 2023] AIシステムの目標や行動を人間の意図や価値観と 一致させるための研究や技術
  2. © 2020 アライメントのアプローチ ⚫ 価値アライメント: - 評価関数を用いて調整 [Brown et al.,

    2021; Sierra et al., 2021] ⚫ 表現アライメント: - 出力・内部表現を用いて調整 [Sucholutsky et al., 2023] ⚫ 概念アライメント: - 概念を用いて調整 [Rane et al., 2024] ⚫ 性格アライメント: - 代表的性格特性を用いて調整 [Zhu et al., 2025] + アルファで集団に対するアプローチが必要
  3. © 2020 集団レベルのAIアライメントが必要 人工群知能(artificial collective intelligence; ACI) アライメント 複数のAIのシステムを同時に人間の目標や人間 の意図などと一致させる技術が必要

    ≒ 人間におけるマネジメントなどに相当する領域 共生(Symbiosis)アライメント 複数のAIのシステムとヒトが共存していく ための技術(交渉術や基盤技術など)が必要
  4. © 2020 集合的アライメントに必要な技術とは? 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣

    [Zhu et al. 2025] 2. 集団の振る舞いの理解: - 集団そのものの振る舞いに関する理論やそのシミュレーションなど - e.g. 集合的予測符号化 (CPC) [Taniguchi et al., R. Soc. Open Sci, 2025]
  5. © 2020 集合的アライメントに必要な技術とは? 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣

    [Zhu et al. 2025] → 表現幾何学が必要ではないか? 2. 集団の振る舞いの理解: - 集団そのものの振る舞いに関する理論やそのシミュレーションなど - e.g. 集合的予測符号化 (CPC) [Taniguchi et al., R. Soc. Open Sci, 2025]
  6. © 2020 余談: 科学の自動化と生成科学へ Tadahiro Taniguchi, Takagi, S., Otsuka, J.,

    Hayashi, Y., and Hamada, H.T. 2025. Collective Predictive Coding as Model of Science: Formalizing Scientific Activities towards Generative Science. Royal Society Open Science. 12: 241678 doi:10.1098/rsos.241678