Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
表現幾何による AIアライメントと機械組織
Search
HiroHamada
June 12, 2025
0
42
表現幾何による AIアライメントと機械組織
HiroHamada
June 12, 2025
Tweet
Share
More Decks by HiroHamada
See All by HiroHamada
研究開発における新たな科学運営モデル
hiroakihamada
0
1
Engineering meta-space of science: An Exploration of Scientific Management Models
hiroakihamada
0
12
How do we evaluate impact differently scalably?
hiroakihamada
0
2
Thinking Machines, Feeling Minds: AI’s Next Frontier
hiroakihamada
0
17
公開用: 多元的技術: なめ敵とPluralityについて
hiroakihamada
0
35
なめら会議: FtC Tokyoの振り返り
hiroakihamada
0
6
新たなサイエンスムーブメントから見る 研究エコシステムの変化
hiroakihamada
0
7
Collective Predictive Coding Hypothesis for Collective Curiosity and Exploration
hiroakihamada
0
54
0718講演会
hiroakihamada
0
14
Featured
See All Featured
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
A designer walks into a library…
pauljervisheath
210
24k
Become a Pro
speakerdeck
PRO
31
5.8k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
54
48k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
100
Navigating Weather and Climate Data
rabernat
0
60
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.3k
Claude Code のすすめ
schroneko
67
210k
Statistics for Hackers
jakevdp
799
230k
Highjacked: Video Game Concept Design
rkendrick25
PRO
0
260
The SEO Collaboration Effect
kristinabergwall1
0
320
Transcript
濱田太陽 (ひろあき), Ph.D 株式会社アラヤ リサーチチームリーダー ムーンショット 目標9 PI 表現幾何による AIアライメントと機械組織
@HiroTHamadaJP [Hamada & Harada, submitted]
© 2020 AIアライメント [Collin et al., 2023] 弱いモデルによるより強いモデルの操作 [Collin et
al., 2023] AIシステムの目標や行動を人間の意図や価値観と 一致させるための研究や技術
© 2020 システム神経科学とAIアライメントの交差点 システム神経科学 生体の神経回路の振る舞いのリバースエンジニアリング ≒ Mechanistic Interpretability (機械論的解釈可能性) AIの神経回路の振る舞いをリバースエンジニアリング
[濱田, 基礎心理学研究, in press]
© 2020 アライメントのアプローチ ⚫ 価値アライメント: - 評価関数を用いて調整 [Brown et al.,
2021; Sierra et al., 2021] ⚫ 表現アライメント: - 出力・内部表現を用いて調整 [Sucholutsky et al., 2023] ⚫ 概念アライメント: - 概念を用いて調整 [Rane et al., 2024] ⚫ 性格アライメント: - 代表的性格特性を用いて調整 [Zhu et al., 2025] + アルファで集団に対するアプローチが必要
© 2020 集団レベルのAIアライメントが必要 人工群知能(artificial collective intelligence; ACI) アライメント 複数のAIのシステムを同時に人間の目標や人間 の意図などと一致させる技術が必要
≒ 人間におけるマネジメントなどに相当する領域 共生(Symbiosis)アライメント 複数のAIのシステムとヒトが共存していく ための技術(交渉術や基盤技術など)が必要
© 2020 集合的アライメントに必要な技術とは? 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣
[Zhu et al. 2025] 2. 集団の振る舞いの理解: - 集団そのものの振る舞いに関する理論やそのシミュレーションなど - e.g. 集合的予測符号化 (CPC) [Taniguchi et al., R. Soc. Open Sci, 2025]
© 2020 集合的アライメントに必要な技術とは? 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣
[Zhu et al. 2025] → 表現幾何学が必要ではないか? 2. 集団の振る舞いの理解: - 集団そのものの振る舞いに関する理論やそのシミュレーションなど - e.g. 集合的予測符号化 (CPC) [Taniguchi et al., R. Soc. Open Sci, 2025]
© 2020 余談: 科学の自動化と生成科学へ Tadahiro Taniguchi, Takagi, S., Otsuka, J.,
Hayashi, Y., and Hamada, H.T. 2025. Collective Predictive Coding as Model of Science: Formalizing Scientific Activities towards Generative Science. Royal Society Open Science. 12: 241678 doi:10.1098/rsos.241678
© 2020 表現幾何: representational geometry 表現同士の関係性・幾何構造の記述 - 心理概念でも同様の関係性がある 概念可視化のツールとして活用可能か?
© 2020 LLMの出力と内部表現が、ヒトの表現と整合的か? 概念の幾何構造による表現アライメント f(x) ~ LLM(x, p) 質問紙 意味論的類似度
類似? 潜在空間の情報 [Harada et al., ongoing]
© 2020 ヒトの属性情報をベースにLLMの行動を操作 概念幾何構造へ介入とその評価 個人・グループ 人口統計 心理・性格概念 [Hamada & Harada,
submitted]
© 2020 機械組織へ すでにAIは、至る所に広がりつつある。 AGIの発達段階として、organizations つまりAIシステムのみによる機械組織 へのチャレンジが始まる(水面下では始まっている) https://www.multifverse.com/blog-posts/openai-agi-5-tier-progress-scale
© 2020 シンギュラリティより産業爆発にまず備える • 仕事の代替に技術的特異点(シンギュラリティ)を迎える必要はない • 私も含め多くの人の知性は、すでにAIに敵わない • AIやAIを搭載したロボットが溢れ既存の仕事を代替されてしまう •
現状でも多くの代替が可能に • 共生に向けた新たな制度設計や技術をより取り込んでおく必要