Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
表現幾何による AIアライメントと機械組織
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
HiroHamada
June 12, 2025
47
0
Share
表現幾何による AIアライメントと機械組織
HiroHamada
June 12, 2025
More Decks by HiroHamada
See All by HiroHamada
AIと人間の共創による "デジタルナレッジマネジメント” ~機械組織が拓くナレッジフローの新地平~
hiroakihamada
0
3
FROとその登場した背景
hiroakihamada
0
54
研究開発における新たな科学運営モデル
hiroakihamada
0
7
Engineering meta-space of science: An Exploration of Scientific Management Models
hiroakihamada
0
15
How do we evaluate impact differently scalably?
hiroakihamada
0
6
Thinking Machines, Feeling Minds: AI’s Next Frontier
hiroakihamada
0
18
公開用: 多元的技術: なめ敵とPluralityについて
hiroakihamada
0
43
なめら会議: FtC Tokyoの振り返り
hiroakihamada
0
11
新たなサイエンスムーブメントから見る 研究エコシステムの変化
hiroakihamada
0
13
Featured
See All Featured
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
320
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
450
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
400
Google's AI Overviews - The New Search
badams
0
950
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
330
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.9k
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
170
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9k
A Modern Web Designer's Workflow
chriscoyier
698
190k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
Skip the Path - Find Your Career Trail
mkilby
1
93
Transcript
濱田太陽 (ひろあき), Ph.D 株式会社アラヤ リサーチチームリーダー ムーンショット 目標9 PI 表現幾何による AIアライメントと機械組織
@HiroTHamadaJP [Hamada & Harada, submitted]
© 2020 AIアライメント [Collin et al., 2023] 弱いモデルによるより強いモデルの操作 [Collin et
al., 2023] AIシステムの目標や行動を人間の意図や価値観と 一致させるための研究や技術
© 2020 システム神経科学とAIアライメントの交差点 システム神経科学 生体の神経回路の振る舞いのリバースエンジニアリング ≒ Mechanistic Interpretability (機械論的解釈可能性) AIの神経回路の振る舞いをリバースエンジニアリング
[濱田, 基礎心理学研究, in press]
© 2020 アライメントのアプローチ ⚫ 価値アライメント: - 評価関数を用いて調整 [Brown et al.,
2021; Sierra et al., 2021] ⚫ 表現アライメント: - 出力・内部表現を用いて調整 [Sucholutsky et al., 2023] ⚫ 概念アライメント: - 概念を用いて調整 [Rane et al., 2024] ⚫ 性格アライメント: - 代表的性格特性を用いて調整 [Zhu et al., 2025] + アルファで集団に対するアプローチが必要
© 2020 集団レベルのAIアライメントが必要 人工群知能(artificial collective intelligence; ACI) アライメント 複数のAIのシステムを同時に人間の目標や人間 の意図などと一致させる技術が必要
≒ 人間におけるマネジメントなどに相当する領域 共生(Symbiosis)アライメント 複数のAIのシステムとヒトが共存していく ための技術(交渉術や基盤技術など)が必要
© 2020 集合的アライメントに必要な技術とは? 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣
[Zhu et al. 2025] 2. 集団の振る舞いの理解: - 集団そのものの振る舞いに関する理論やそのシミュレーションなど - e.g. 集合的予測符号化 (CPC) [Taniguchi et al., R. Soc. Open Sci, 2025]
© 2020 集合的アライメントに必要な技術とは? 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣
[Zhu et al. 2025] → 表現幾何学が必要ではないか? 2. 集団の振る舞いの理解: - 集団そのものの振る舞いに関する理論やそのシミュレーションなど - e.g. 集合的予測符号化 (CPC) [Taniguchi et al., R. Soc. Open Sci, 2025]
© 2020 余談: 科学の自動化と生成科学へ Tadahiro Taniguchi, Takagi, S., Otsuka, J.,
Hayashi, Y., and Hamada, H.T. 2025. Collective Predictive Coding as Model of Science: Formalizing Scientific Activities towards Generative Science. Royal Society Open Science. 12: 241678 doi:10.1098/rsos.241678
© 2020 表現幾何: representational geometry 表現同士の関係性・幾何構造の記述 - 心理概念でも同様の関係性がある 概念可視化のツールとして活用可能か?
© 2020 LLMの出力と内部表現が、ヒトの表現と整合的か? 概念の幾何構造による表現アライメント f(x) ~ LLM(x, p) 質問紙 意味論的類似度
類似? 潜在空間の情報 [Harada et al., ongoing]
© 2020 ヒトの属性情報をベースにLLMの行動を操作 概念幾何構造へ介入とその評価 個人・グループ 人口統計 心理・性格概念 [Hamada & Harada,
submitted]
© 2020 機械組織へ すでにAIは、至る所に広がりつつある。 AGIの発達段階として、organizations つまりAIシステムのみによる機械組織 へのチャレンジが始まる(水面下では始まっている) https://www.multifverse.com/blog-posts/openai-agi-5-tier-progress-scale
© 2020 シンギュラリティより産業爆発にまず備える • 仕事の代替に技術的特異点(シンギュラリティ)を迎える必要はない • 私も含め多くの人の知性は、すでにAIに敵わない • AIやAIを搭載したロボットが溢れ既存の仕事を代替されてしまう •
現状でも多くの代替が可能に • 共生に向けた新たな制度設計や技術をより取り込んでおく必要