Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
表現幾何による AIアライメントと機械組織
Search
HiroHamada
June 12, 2025
58
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
表現幾何による AIアライメントと機械組織
HiroHamada
June 12, 2025
More Decks by HiroHamada
See All by HiroHamada
共生概念の整理と AIアライメントの構想
hiroakihamada
0
220
AIと人間の共創による "デジタルナレッジマネジメント” ~機械組織が拓くナレッジフローの新地平~
hiroakihamada
0
21
FROとその登場した背景
hiroakihamada
0
80
研究開発における新たな科学運営モデル
hiroakihamada
0
22
Engineering meta-space of science: An Exploration of Scientific Management Models
hiroakihamada
0
26
How do we evaluate impact differently scalably?
hiroakihamada
0
17
Thinking Machines, Feeling Minds: AI’s Next Frontier
hiroakihamada
0
33
公開用: 多元的技術: なめ敵とPluralityについて
hiroakihamada
0
59
なめら会議: FtC Tokyoの振り返り
hiroakihamada
0
25
Featured
See All Featured
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
310
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
170
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
65
56k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
1
350
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
201
75k
A Tale of Four Properties
chriscoyier
163
24k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
170
Transcript
濱田太陽 (ひろあき), Ph.D 株式会社アラヤ リサーチチームリーダー ムーンショット 目標9 PI 表現幾何による AIアライメントと機械組織
@HiroTHamadaJP [Hamada & Harada, submitted]
© 2020 AIアライメント [Collin et al., 2023] 弱いモデルによるより強いモデルの操作 [Collin et
al., 2023] AIシステムの目標や行動を人間の意図や価値観と 一致させるための研究や技術
© 2020 システム神経科学とAIアライメントの交差点 システム神経科学 生体の神経回路の振る舞いのリバースエンジニアリング ≒ Mechanistic Interpretability (機械論的解釈可能性) AIの神経回路の振る舞いをリバースエンジニアリング
[濱田, 基礎心理学研究, in press]
© 2020 アライメントのアプローチ ⚫ 価値アライメント: - 評価関数を用いて調整 [Brown et al.,
2021; Sierra et al., 2021] ⚫ 表現アライメント: - 出力・内部表現を用いて調整 [Sucholutsky et al., 2023] ⚫ 概念アライメント: - 概念を用いて調整 [Rane et al., 2024] ⚫ 性格アライメント: - 代表的性格特性を用いて調整 [Zhu et al., 2025] + アルファで集団に対するアプローチが必要
© 2020 集団レベルのAIアライメントが必要 人工群知能(artificial collective intelligence; ACI) アライメント 複数のAIのシステムを同時に人間の目標や人間 の意図などと一致させる技術が必要
≒ 人間におけるマネジメントなどに相当する領域 共生(Symbiosis)アライメント 複数のAIのシステムとヒトが共存していく ための技術(交渉術や基盤技術など)が必要
© 2020 集合的アライメントに必要な技術とは? 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣
[Zhu et al. 2025] 2. 集団の振る舞いの理解: - 集団そのものの振る舞いに関する理論やそのシミュレーションなど - e.g. 集合的予測符号化 (CPC) [Taniguchi et al., R. Soc. Open Sci, 2025]
© 2020 集合的アライメントに必要な技術とは? 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣
[Zhu et al. 2025] → 表現幾何学が必要ではないか? 2. 集団の振る舞いの理解: - 集団そのものの振る舞いに関する理論やそのシミュレーションなど - e.g. 集合的予測符号化 (CPC) [Taniguchi et al., R. Soc. Open Sci, 2025]
© 2020 余談: 科学の自動化と生成科学へ Tadahiro Taniguchi, Takagi, S., Otsuka, J.,
Hayashi, Y., and Hamada, H.T. 2025. Collective Predictive Coding as Model of Science: Formalizing Scientific Activities towards Generative Science. Royal Society Open Science. 12: 241678 doi:10.1098/rsos.241678
© 2020 表現幾何: representational geometry 表現同士の関係性・幾何構造の記述 - 心理概念でも同様の関係性がある 概念可視化のツールとして活用可能か?
© 2020 LLMの出力と内部表現が、ヒトの表現と整合的か? 概念の幾何構造による表現アライメント f(x) ~ LLM(x, p) 質問紙 意味論的類似度
類似? 潜在空間の情報 [Harada et al., ongoing]
© 2020 ヒトの属性情報をベースにLLMの行動を操作 概念幾何構造へ介入とその評価 個人・グループ 人口統計 心理・性格概念 [Hamada & Harada,
submitted]
© 2020 機械組織へ すでにAIは、至る所に広がりつつある。 AGIの発達段階として、organizations つまりAIシステムのみによる機械組織 へのチャレンジが始まる(水面下では始まっている) https://www.multifverse.com/blog-posts/openai-agi-5-tier-progress-scale
© 2020 シンギュラリティより産業爆発にまず備える • 仕事の代替に技術的特異点(シンギュラリティ)を迎える必要はない • 私も含め多くの人の知性は、すでにAIに敵わない • AIやAIを搭載したロボットが溢れ既存の仕事を代替されてしまう •
現状でも多くの代替が可能に • 共生に向けた新たな制度設計や技術をより取り込んでおく必要