Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Discovering Universal Geometry in Embeddings wi...
Search
Momose Oyama
December 21, 2023
Research
1
840
Discovering Universal Geometry in Embeddings with ICA
2023年12月20日 NLPコロキウム
Momose Oyama
December 21, 2023
Tweet
Share
More Decks by Momose Oyama
See All by Momose Oyama
独立成分分析を用いた埋め込み表現の視覚的な理解
momoseoyama
5
1.5k
Other Decks in Research
See All in Research
Data-centric AI勉強会 「ロボットにおけるData-centric AI」
haraduka
0
470
2038年問題が思ったよりヤバい。検出ツールを作って脅威性評価してみた論文 | Kansai Open Forum 2024
ran350
8
3.8k
大規模日本語VLM Asagi-VLMにおける合成データセットの構築とモデル実装
kuehara
4
830
eAI (Engineerable AI) プロジェクトの全体像 / Overview of eAI Project
ishikawafyu
0
380
NeurIPS 2024 参加報告 & 論文紹介 (SACPO, Ctrl-G)
reisato12345
0
340
JSAI NeurIPS 2024 参加報告会(AI アライメント)
akifumi_wachi
5
850
博士学位論文予備審査 / Scaling Telemetry Workloads in Cloud Applications: Techniques for Instrumentation, Storage, and Mining
yuukit
1
1.7k
[ECCV2024読み会] 衛星画像からの地上画像生成
elith
1
1.1k
Weekly AI Agents News! 11月号 プロダクト/ニュースのアーカイブ
masatoto
0
300
「熊本県内バス・電車無料デー」の振り返りとその後の展開@土木計画学SS:成功失敗事例に学ぶ公共交通運賃設定
trafficbrain
0
220
【NLPコロキウム】Stepwise Alignment for Constrained Language Model Policy Optimization (NeurIPS 2024)
akifumi_wachi
3
530
20241115都市交通決起集会 趣旨説明・熊本事例紹介
trafficbrain
0
1k
Featured
See All Featured
Side Projects
sachag
452
42k
The Invisible Side of Design
smashingmag
299
50k
Scaling GitHub
holman
459
140k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Done Done
chrislema
182
16k
Fashionably flexible responsive web design (full day workshop)
malarkey
406
66k
We Have a Design System, Now What?
morganepeng
51
7.4k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
133
33k
The Cost Of JavaScript in 2023
addyosmani
47
7.4k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
175
52k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
570
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.7k
Transcript
Discovering Universal Geometry in Embeddings with ICA 2023.12.20 NLPコロキウム Hiroaki
Yamagiwa*, Momose Oyama*, Hidetoshi Shimodaira EMNLP2023
⼤⼭百々勢 (Oyama Momose) l 京都⼤学 下平研究室 修⼠2年 (D進の予定) l 埋め込み表現の研究
◦ Norm of Word Embedding Encodes Information Gain [Oyama, Yokoi, Shimodaira, EMNLP 2023] [Paper] ◦ Discovering Universal Geometry in Embeddings with ICA [Yamagiwa*, Oyama*, Shimodaira, EMNLP 2023] [Paper] l 国内のコミュニティ ◦ NLP, YANS ◦ IBIS, 統計連合⼤会 2
道具の紹介︓ Independent Component Analysis (ICA)
ICAは独⽴な軸を⾒つける変換 𝐗𝐁 = 𝐒 ⼊⼒の⾏列: (𝑛, 𝑑) 変換後の⾏列: (𝑛, 𝑑)
𝑑個の列が互いに独⽴ 変換⾏列: (𝑑, 𝑑) 4
ICAは独⽴な軸を⾒つける変換 𝐗𝐁 = 𝐒 ⼊⼒の⾏列: (𝑛, 𝑑) 変換⾏列: (𝑑, 𝑑)
𝐗 (⼊⼒) 𝐒 (出⼒) ⾳声 𝑑箇所のマイクが拾った⼈々の話し声 𝑛秒分 𝑑個に分離した話し声のデータ 𝑛秒分 5 変換後の⾏列: (𝑛, 𝑑) 𝑑個の列が互いに独⽴
ICAは独⽴な軸を⾒つける変換 𝐗 (⼊⼒) 𝐒 (出⼒) ⾳声 𝑑箇所のマイクが拾った⼈々の話し声 𝑛秒分 𝑑個に分離した話し声のデータ 𝑛秒分
単語埋め込み 𝑑個の次元に分散して表現された 𝑛単語分の意味情報 𝑑個の独⽴な意味情報に分離された 𝑛単語の表現 (これから⾒ていきます) 𝐗𝐁 = 𝐒 ⼊⼒の⾏列: (𝑛, 𝑑) 変換⾏列: (𝑑, 𝑑) 6 変換後の⾏列: (𝑛, 𝑑) 𝑑個の列が互いに独⽴
単語埋め込みをICAで分析
単語ベクトルをヒートマップで可視化 l Skip-gram with Negative Samplingで学習した 単語ベクトル l ヒートマップ ◦
⾏: 単語ベクトル ◦ 列: 次元 (5/300) l 各要素の⼤⼩は解釈できない ◦ 「分散」表現なので ⾃然なこと 8
PCAをしても解釈性に変化なし 9
ICA後は各次元が持つ意味を解釈できる l 16軸: ⾷べ物 (dishes, …) l 26軸: ⾞ (cars,
…) l 35軸: 映画 (film, …) l 34軸: イタリア (italian, …) l 56軸: ⽇本 (japanese, …) 10
独⽴成分は「尖って」いて解釈可能 l 2軸に沿った散布図 ◦ イタリア軸と⾞軸 ◦ ⽇本軸と映画軸 l 加法構成性 ◦
Ferrari ≈ italian + cars ◦ kurosawa ≈ japanese + film l 300次元よりも⼩さな部分 空間で単語の意味を表現 11
ICAの結果の普遍性
まず、英語の埋め込みを可視化 英語 13
ICA: 異なる⾔語の埋め込みで形と意味が共通 14
PCA: 共通の性質を⾒つけられない 15
ICA: モデルやドメインの違いを超えた普遍性 16
PCA: やはりうまくいかない 17
なぜPCAではなくICAが うまくいくのか
PCAが捉えきれない⾼次情報をICAは捉える 𝐒 = 𝐗𝐀𝐑 ICA が独⽴な軸を⾒つける⼿順 1. ⽩⾊化 (PCA): 各軸を無相関にする
2. 直交変換: 各軸の⾮ガウス性を最⼤化する 19
PCAが捉えきれない⾮ガウス性をICAは捉える ICA が独⽴な軸を⾒つける⼿順 1. ⽩⾊化 (PCA): 各軸を無相関にする 2. 直交変換: 各軸の⾮ガウス性を最⼤化する
lどれだけガウス分布 から逸脱しているか l例えば歪度や尖度 で測定できる 𝐒 = 𝐗𝐀𝐑 20
PCAが捉えきれない⾮ガウス性をICAは捉える ICA = PCA + 直交変換 l PCA: 「尖った形状」を⾒つけられない l
ICA: 「尖った形状」を⾒つけられる 𝐒 = 𝐗𝐀𝐑 21
まとめ
まとめ l ICAを使って 埋め込みを分析した l わかったこと 1. 埋め込みの独⽴成分は 「尖って」いて解釈可能 2.
⾔語・モデル・ドメインの 違いを超えて普遍的 l PCAだと上⼿くいかない 23