Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
表現幾何による AIアライメントと機械組織
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
HiroHamada
June 12, 2025
0
46
表現幾何による AIアライメントと機械組織
HiroHamada
June 12, 2025
Tweet
Share
More Decks by HiroHamada
See All by HiroHamada
FROとその登場した背景
hiroakihamada
0
43
研究開発における新たな科学運営モデル
hiroakihamada
0
3
Engineering meta-space of science: An Exploration of Scientific Management Models
hiroakihamada
0
13
How do we evaluate impact differently scalably?
hiroakihamada
0
3
Thinking Machines, Feeling Minds: AI’s Next Frontier
hiroakihamada
0
17
公開用: 多元的技術: なめ敵とPluralityについて
hiroakihamada
0
37
なめら会議: FtC Tokyoの振り返り
hiroakihamada
0
9
新たなサイエンスムーブメントから見る 研究エコシステムの変化
hiroakihamada
0
10
Collective Predictive Coding Hypothesis for Collective Curiosity and Exploration
hiroakihamada
0
56
Featured
See All Featured
How GitHub (no longer) Works
holman
316
140k
Embracing the Ebb and Flow
colly
88
5k
Side Projects
sachag
455
43k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.4k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.6k
Technical Leadership for Architectural Decision Making
baasie
2
250
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.1k
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
99
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
280
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
410
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.2k
The untapped power of vector embeddings
frankvandijk
1
1.6k
Transcript
濱田太陽 (ひろあき), Ph.D 株式会社アラヤ リサーチチームリーダー ムーンショット 目標9 PI 表現幾何による AIアライメントと機械組織
@HiroTHamadaJP [Hamada & Harada, submitted]
© 2020 AIアライメント [Collin et al., 2023] 弱いモデルによるより強いモデルの操作 [Collin et
al., 2023] AIシステムの目標や行動を人間の意図や価値観と 一致させるための研究や技術
© 2020 システム神経科学とAIアライメントの交差点 システム神経科学 生体の神経回路の振る舞いのリバースエンジニアリング ≒ Mechanistic Interpretability (機械論的解釈可能性) AIの神経回路の振る舞いをリバースエンジニアリング
[濱田, 基礎心理学研究, in press]
© 2020 アライメントのアプローチ ⚫ 価値アライメント: - 評価関数を用いて調整 [Brown et al.,
2021; Sierra et al., 2021] ⚫ 表現アライメント: - 出力・内部表現を用いて調整 [Sucholutsky et al., 2023] ⚫ 概念アライメント: - 概念を用いて調整 [Rane et al., 2024] ⚫ 性格アライメント: - 代表的性格特性を用いて調整 [Zhu et al., 2025] + アルファで集団に対するアプローチが必要
© 2020 集団レベルのAIアライメントが必要 人工群知能(artificial collective intelligence; ACI) アライメント 複数のAIのシステムを同時に人間の目標や人間 の意図などと一致させる技術が必要
≒ 人間におけるマネジメントなどに相当する領域 共生(Symbiosis)アライメント 複数のAIのシステムとヒトが共存していく ための技術(交渉術や基盤技術など)が必要
© 2020 集合的アライメントに必要な技術とは? 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣
[Zhu et al. 2025] 2. 集団の振る舞いの理解: - 集団そのものの振る舞いに関する理論やそのシミュレーションなど - e.g. 集合的予測符号化 (CPC) [Taniguchi et al., R. Soc. Open Sci, 2025]
© 2020 集合的アライメントに必要な技術とは? 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣
[Zhu et al. 2025] → 表現幾何学が必要ではないか? 2. 集団の振る舞いの理解: - 集団そのものの振る舞いに関する理論やそのシミュレーションなど - e.g. 集合的予測符号化 (CPC) [Taniguchi et al., R. Soc. Open Sci, 2025]
© 2020 余談: 科学の自動化と生成科学へ Tadahiro Taniguchi, Takagi, S., Otsuka, J.,
Hayashi, Y., and Hamada, H.T. 2025. Collective Predictive Coding as Model of Science: Formalizing Scientific Activities towards Generative Science. Royal Society Open Science. 12: 241678 doi:10.1098/rsos.241678
© 2020 表現幾何: representational geometry 表現同士の関係性・幾何構造の記述 - 心理概念でも同様の関係性がある 概念可視化のツールとして活用可能か?
© 2020 LLMの出力と内部表現が、ヒトの表現と整合的か? 概念の幾何構造による表現アライメント f(x) ~ LLM(x, p) 質問紙 意味論的類似度
類似? 潜在空間の情報 [Harada et al., ongoing]
© 2020 ヒトの属性情報をベースにLLMの行動を操作 概念幾何構造へ介入とその評価 個人・グループ 人口統計 心理・性格概念 [Hamada & Harada,
submitted]
© 2020 機械組織へ すでにAIは、至る所に広がりつつある。 AGIの発達段階として、organizations つまりAIシステムのみによる機械組織 へのチャレンジが始まる(水面下では始まっている) https://www.multifverse.com/blog-posts/openai-agi-5-tier-progress-scale
© 2020 シンギュラリティより産業爆発にまず備える • 仕事の代替に技術的特異点(シンギュラリティ)を迎える必要はない • 私も含め多くの人の知性は、すでにAIに敵わない • AIやAIを搭載したロボットが溢れ既存の仕事を代替されてしまう •
現状でも多くの代替が可能に • 共生に向けた新たな制度設計や技術をより取り込んでおく必要