Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
表現幾何による AIアライメントと機械組織
Search
HiroHamada
June 12, 2025
57
0
Share
表現幾何による AIアライメントと機械組織
HiroHamada
June 12, 2025
More Decks by HiroHamada
See All by HiroHamada
共生概念の整理と AIアライメントの構想
hiroakihamada
0
190
AIと人間の共創による "デジタルナレッジマネジメント” ~機械組織が拓くナレッジフローの新地平~
hiroakihamada
0
13
FROとその登場した背景
hiroakihamada
0
72
研究開発における新たな科学運営モデル
hiroakihamada
0
16
Engineering meta-space of science: An Exploration of Scientific Management Models
hiroakihamada
0
23
How do we evaluate impact differently scalably?
hiroakihamada
0
17
Thinking Machines, Feeling Minds: AI’s Next Frontier
hiroakihamada
0
26
公開用: 多元的技術: なめ敵とPluralityについて
hiroakihamada
0
52
なめら会議: FtC Tokyoの振り返り
hiroakihamada
0
21
Featured
See All Featured
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.3k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
440
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.2k
The SEO Collaboration Effect
kristinabergwall1
1
440
Scaling GitHub
holman
464
140k
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
140
Building AI with AI
inesmontani
PRO
1
970
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8.1k
The World Runs on Bad Software
bkeepers
PRO
72
12k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
The agentic SEO stack - context over prompts
schlessera
0
770
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
110
Transcript
濱田太陽 (ひろあき), Ph.D 株式会社アラヤ リサーチチームリーダー ムーンショット 目標9 PI 表現幾何による AIアライメントと機械組織
@HiroTHamadaJP [Hamada & Harada, submitted]
© 2020 AIアライメント [Collin et al., 2023] 弱いモデルによるより強いモデルの操作 [Collin et
al., 2023] AIシステムの目標や行動を人間の意図や価値観と 一致させるための研究や技術
© 2020 システム神経科学とAIアライメントの交差点 システム神経科学 生体の神経回路の振る舞いのリバースエンジニアリング ≒ Mechanistic Interpretability (機械論的解釈可能性) AIの神経回路の振る舞いをリバースエンジニアリング
[濱田, 基礎心理学研究, in press]
© 2020 アライメントのアプローチ ⚫ 価値アライメント: - 評価関数を用いて調整 [Brown et al.,
2021; Sierra et al., 2021] ⚫ 表現アライメント: - 出力・内部表現を用いて調整 [Sucholutsky et al., 2023] ⚫ 概念アライメント: - 概念を用いて調整 [Rane et al., 2024] ⚫ 性格アライメント: - 代表的性格特性を用いて調整 [Zhu et al., 2025] + アルファで集団に対するアプローチが必要
© 2020 集団レベルのAIアライメントが必要 人工群知能(artificial collective intelligence; ACI) アライメント 複数のAIのシステムを同時に人間の目標や人間 の意図などと一致させる技術が必要
≒ 人間におけるマネジメントなどに相当する領域 共生(Symbiosis)アライメント 複数のAIのシステムとヒトが共存していく ための技術(交渉術や基盤技術など)が必要
© 2020 集合的アライメントに必要な技術とは? 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣
[Zhu et al. 2025] 2. 集団の振る舞いの理解: - 集団そのものの振る舞いに関する理論やそのシミュレーションなど - e.g. 集合的予測符号化 (CPC) [Taniguchi et al., R. Soc. Open Sci, 2025]
© 2020 集合的アライメントに必要な技術とは? 1. 個体の理解: - 複数の特性を持つAIを自由に構築 - e.g. 性格特性の模倣
[Zhu et al. 2025] → 表現幾何学が必要ではないか? 2. 集団の振る舞いの理解: - 集団そのものの振る舞いに関する理論やそのシミュレーションなど - e.g. 集合的予測符号化 (CPC) [Taniguchi et al., R. Soc. Open Sci, 2025]
© 2020 余談: 科学の自動化と生成科学へ Tadahiro Taniguchi, Takagi, S., Otsuka, J.,
Hayashi, Y., and Hamada, H.T. 2025. Collective Predictive Coding as Model of Science: Formalizing Scientific Activities towards Generative Science. Royal Society Open Science. 12: 241678 doi:10.1098/rsos.241678
© 2020 表現幾何: representational geometry 表現同士の関係性・幾何構造の記述 - 心理概念でも同様の関係性がある 概念可視化のツールとして活用可能か?
© 2020 LLMの出力と内部表現が、ヒトの表現と整合的か? 概念の幾何構造による表現アライメント f(x) ~ LLM(x, p) 質問紙 意味論的類似度
類似? 潜在空間の情報 [Harada et al., ongoing]
© 2020 ヒトの属性情報をベースにLLMの行動を操作 概念幾何構造へ介入とその評価 個人・グループ 人口統計 心理・性格概念 [Hamada & Harada,
submitted]
© 2020 機械組織へ すでにAIは、至る所に広がりつつある。 AGIの発達段階として、organizations つまりAIシステムのみによる機械組織 へのチャレンジが始まる(水面下では始まっている) https://www.multifverse.com/blog-posts/openai-agi-5-tier-progress-scale
© 2020 シンギュラリティより産業爆発にまず備える • 仕事の代替に技術的特異点(シンギュラリティ)を迎える必要はない • 私も含め多くの人の知性は、すでにAIに敵わない • AIやAIを搭載したロボットが溢れ既存の仕事を代替されてしまう •
現状でも多くの代替が可能に • 共生に向けた新たな制度設計や技術をより取り込んでおく必要