Upgrade to Pro — share decks privately, control downloads, hide ads and more …

表現幾何による AIアライメントと機械組織

Avatar for HiroHamada HiroHamada
June 12, 2025
24

表現幾何による AIアライメントと機械組織

Avatar for HiroHamada

HiroHamada

June 12, 2025
Tweet

Transcript

  1. © 2020 AIアライメント [Collin et al., 2023] 弱いモデルによるより強いモデルの操作 [Collin et

    al., 2023] AIシステムの目標や行動を人間の意図や価値観と 一致させるための研究や技術
  2. © 2020 アライメントのアプローチ ⚫ 価値アライメント: - 評価関数を用いて調整 [Brown et al.,

    2021; Sierra et al., 2021] ⚫ 表現アライメント: - 出力・内部表現を用いて調整 [Sucholutsky et al., 2023] ⚫ 概念アライメント: - 概念を用いて調整 [Rane et al., 2024] ⚫ 性格アライメント: - 代表的性格特性を用いて調整 [Zhu et al., 2025] + アルファで集団に対するアプローチが必要
  3. © 2020 集団レベルのAIアライメントが必要 人工群知能(artificial collective intelligence; ACI) アライメント 複数のAIのシステムを同時に人間の目標や人間 の意図などと一致させる技術が必要

    ≒ 人間におけるマネジメントなどに相当する領域 共生(Symbiosis)アライメント 複数のAIのシステムとヒトが共存していく ための技術(交渉術や基盤技術など)が必要
  4. © 2020 集合的アライメントに必要な技術とは? 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣

    [Zhu et al. 2025] 2. 集団の振る舞いの理解: - 集団そのものの振る舞いに関する理論やそのシミュレーションなど - e.g. 集合的予測符号化 (CPC) [Taniguchi et al., R. Soc. Open Sci, 2025]
  5. © 2020 集合的アライメントに必要な技術とは? 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣

    [Zhu et al. 2025] → 表現幾何学が必要ではないか? 2. 集団の振る舞いの理解: - 集団そのものの振る舞いに関する理論やそのシミュレーションなど - e.g. 集合的予測符号化 (CPC) [Taniguchi et al., R. Soc. Open Sci, 2025]
  6. © 2020 余談: 科学の自動化と生成科学へ Tadahiro Taniguchi, Takagi, S., Otsuka, J.,

    Hayashi, Y., and Hamada, H.T. 2025. Collective Predictive Coding as Model of Science: Formalizing Scientific Activities towards Generative Science. Royal Society Open Science. 12: 241678 doi:10.1098/rsos.241678