表現幾何による AIアライメントと機械組織

濱田太陽 (ひろあき), Ph.D 株式会社アラヤリサーチチームリーダームーンショット目標9 PI 表現幾何による AIアライメントと機械組織
@HiroTHamadaJP [Hamada & Harada, submitted]

© 2020 AIアライメント [Collin et al., 2023] 弱いモデルによるより強いモデルの操作 [Collin et
al., 2023] AIシステムの目標や行動を人間の意図や価値観と一致させるための研究や技術

© 2020 システム神経科学とAIアライメントの交差点システム神経科学生体の神経回路の振る舞いのリバースエンジニアリング ≒ Mechanistic Interpretability (機械論的解釈可能性) AIの神経回路の振る舞いをリバースエンジニアリング
[濱田, 基礎心理学研究, in press]

© 2020 アライメントのアプローチ ⚫ 価値アライメント： - 評価関数を用いて調整 [Brown et al.,
2021; Sierra et al., 2021] ⚫ 表現アライメント: - 出力・内部表現を用いて調整 [Sucholutsky et al., 2023] ⚫ 概念アライメント: - 概念を用いて調整 [Rane et al., 2024] ⚫ 性格アライメント: - 代表的性格特性を用いて調整 [Zhu et al., 2025] + アルファで集団に対するアプローチが必要

© 2020 集団レベルのAIアライメントが必要人工群知能(artificial collective intelligence; ACI) アライメント複数のAIのシステムを同時に人間の目標や人間の意図などと一致させる技術が必要
≒ 人間におけるマネジメントなどに相当する領域共生(Symbiosis)アライメント複数のAIのシステムとヒトが共存していくための技術(交渉術や基盤技術など)が必要

© 2020 集合的アライメントに必要な技術とは？ 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣
[Zhu et al. 2025] 2. 集団の振る舞いの理解: - 集団そのものの振る舞いに関する理論やそのシミュレーションなど - e.g. 集合的予測符号化 (CPC) [Taniguchi et al., R. Soc. Open Sci, 2025]

© 2020 集合的アライメントに必要な技術とは？ 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣
[Zhu et al. 2025] → 表現幾何学が必要ではないか？ 2. 集団の振る舞いの理解: - 集団そのものの振る舞いに関する理論やそのシミュレーションなど - e.g. 集合的予測符号化 (CPC) [Taniguchi et al., R. Soc. Open Sci, 2025]

© 2020 余談: 科学の自動化と生成科学へ Tadahiro Taniguchi, Takagi, S., Otsuka, J.,
Hayashi, Y., and Hamada, H.T. 2025. Collective Predictive Coding as Model of Science: Formalizing Scientific Activities towards Generative Science. Royal Society Open Science. 12: 241678 doi:10.1098/rsos.241678

© 2020 シンギュラリティより産業爆発にまず備える • 仕事の代替に技術的特異点（シンギュラリティ）を迎える必要はない • 私も含め多くの人の知性は、すでにAIに敵わない • AIやAIを搭載したロボットが溢れ既存の仕事を代替されてしまう •
現状でも多くの代替が可能に • 共生に向けた新たな制度設計や技術をより取り込んでおく必要

表現幾何による AIアライメントと機械組織

表現幾何による AIアライメントと機械組織

HiroHamada

More Decks by HiroHamada

Featured

Transcript

濱田太陽 (ひろあき), Ph.D 株式会社アラヤリサーチチームリーダームーンショット目標9 PI 表現幾何による AIアライメントと機械組織

© 2020 AIアライメント [Collin et al., 2023] 弱いモデルによるより強いモデルの操作 [Collin et

© 2020 アライメントのアプローチ ⚫ 価値アライメント： - 評価関数を用いて調整 [Brown et al.,

© 2020 集団レベルのAIアライメントが必要人工群知能(artificial collective intelligence; ACI) アライメント複数のAIのシステムを同時に人間の目標や人間の意図などと一致させる技術が必要

© 2020 集合的アライメントに必要な技術とは？ 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣

© 2020 集合的アライメントに必要な技術とは？ 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣

© 2020 余談: 科学の自動化と生成科学へ Tadahiro Taniguchi, Takagi, S., Otsuka, J.,

© 2020 表現幾何: representational geometry 表現同士の関係性・幾何構造の記述 - 心理概念でも同様の関係性がある概念可視化のツールとして活用可能か？

© 2020 LLMの出力と内部表現が、ヒトの表現と整合的か？概念の幾何構造による表現アライメント f(x) ~ LLM(x, p) 質問紙意味論的類似度

© 2020 ヒトの属性情報をベースにLLMの行動を操作概念幾何構造へ介入とその評価個人・グループ人口統計心理・性格概念 [Hamada & Harada,