Slide 1

Slide 1 text

独⽴成分分析を⽤いた 埋め込み表現の視覚的な理解 ⼤⼭百々勢(京都⼤学) 2024.06.04 NAIST DSC NLP Seminar

Slide 2

Slide 2 text

⾃⼰紹介 2 l ⼤⼭百々勢(Oyama Momose) l 京都⼤学 下平研究室 博⼠1年 l 埋め込み表現を理解する研究 ○ Norm of Word Embedding Encodes Information Gain [Oyama, Yokoi, Shimodaira, EMNLP 2023] ○ Discovering Universal Geometry in Embeddings with ICA [Yamagiwa*, Oyama*, Shimodaira, EMNLP 2023] l 国内のコミュニティ ○ NLP, YANS ○ IBIS, 統計連合⼤会 今⽇のトピックです

Slide 3

Slide 3 text

導⼊︓独⽴成分分析 Independent Component Analysis; ICA

Slide 4

Slide 4 text

ICAを考える状況 l 3⼈の話し声 l 3つのマイクで録⾳ 4

Slide 5

Slide 5 text

ICAを考える状況 5

Slide 6

Slide 6 text

ICAを考える状況 6 𝑤!" 線形な混合を仮定 + 𝑤#" + 𝑤""

Slide 7

Slide 7 text

ICAで3⼈の話し声を復元したい ⭕ 観測可能 ○ 3⼈の声が 混ざった⾳声データ 7 ❌ 観測できない ○ 3⼈の話し声 ○ 混合のパラメータ

Slide 8

Slide 8 text

ICAで3⼈の話し声を復元したい 8 𝐗 ∈ ℝ(",$) 𝐒 ∈ ℝ(",$) 𝐖 ∈ ℝ($,$) 仮定1︓3⼈の話し声が統計的に独⽴ 仮定2︓線形な混合 観測データ

Slide 9

Slide 9 text

ICAで3⼈の話し声を復元したい 9 𝐒 = 𝐗𝐁 (𝐁 = 𝐖!𝟏) 𝐒 ∈ ℝ(",$) 𝐖 ∈ ℝ($,$) 仮定1︓3⼈の話し声が統計的に独⽴ 仮定2︓線形な混合 𝐗 ∈ ℝ(",$) 観測データ 推定された 𝐒 が独⽴になるように 線形変換 𝐁 を求める(後半)

Slide 10

Slide 10 text

ICAは⾏列に対して実⾏ 10 𝐗𝐁 = 𝐒 ⼊⼒の⾏列: (𝑛, 𝑑) 変換後の⾏列: (𝑛, 𝑑) 𝑑個の列が互いに独⽴ 変換⾏列: (𝑑, 𝑑)

Slide 11

Slide 11 text

ICAの具体例: 画像の特徴抽出 11 画像は [Hyvärinen+ 詳解独⽴成分分析] から Olshausen & Field. Emergence of simple-cell recep?ve field proper?es by learning a sparse code for natural images. 1996. Bell & Sejnowski. Edges are the ‘Independent Components’ of Natural Scenes. 1997. l ⾃然画像のICAで得た独⽴成分の可視化 l それぞれの画像はこれらの独⽴な特徴の 線形和として表現できる

Slide 12

Slide 12 text

背景︓埋め込み表現

Slide 13

Slide 13 text

埋め込み表現 13 l ⾼次元空間で単語の意味や画像の特徴を表現 l ⾼次元でどのような表現になっているのか視覚的な解釈が難しい [Dosovitskiy et al. ICLR2021] [Devlin et al. NAACL2019] [Mikolov et al. ICLR2013]

Slide 14

Slide 14 text

埋め込み表現 14 l解釈可能性 ○ 各軸を解釈可能にするために辞書に基づいた損失関数を設計 [Arora + 2018] ○ 各軸の正負の両側で解釈可能にする損失関数を設計 [Mathew + 2020, Engler + 2022] lスパース性 ○ 𝑘 −スパースオートエンコーダ [Makhzani & Frey 2013, Subramanian + 2018] ○ スパースコーディング [Murphy + 2012, Luo + 2015] ○ 𝑙! 正則化 [Sun + 2015] l Disentanglement による解釈可能性&スパース性 ○ 画像のVAEに対するDisentanglement [Kim+ 2018] ○ 単語埋め込みのDisentanglement [Liao+ 2020] ○ GANにおけるDisentangleな表現学習 [Chen+ 2016]

Slide 15

Slide 15 text

埋め込み表現 15 l解釈可能性 ○ 各軸を解釈可能にするために辞書に基づいた損失関数を設計 [Arora + 2018] ○ 各軸の正負の両側で解釈可能にする損失関数を設計 [Mathew + 2020, Engler + 2022] lスパース性 ○ 𝑘 −スパースオートエンコーダ [Makhzani & Frey 2013, Subramanian + 2018] ○ スパースコーディング [Murphy + 2012, Luo + 2015] ○ 𝑙! 正則化 [Sun + 2015] l Disentanglement による解釈可能性&スパース性 ○ 画像のVAEに対するDisentanglement [Kim+ 2018] ○ 単語埋め込みのDisentanglement [Liao+ 2020] ○ GANにおけるDisentangleな表現学習 [Chen+ 2016]

Slide 16

Slide 16 text

埋め込み表現 16 l解釈可能性 ○ 各軸を解釈可能にするために辞書に基づいた損失関数を設計 [Arora + 2018] ○ 各軸の正負の両側で解釈可能にする損失関数を設計 [Mathew + 2020, Engler + 2022] lスパース性 ○ 𝑘 −スパースオートエンコーダ [Makhzani & Frey 2013, Subramanian + 2018] ○ スパースコーディング [Murphy + 2012, Luo + 2015] ○ 𝑙! 正則化 [Sun + 2015] l Disentanglement による解釈可能性 ○ 画像のVAEに対するDisentanglement [Kim+ 2018] ○ 単語埋め込みのDisentanglement [Liao+ 2020] ○ GANにおけるDisentangleな表現学習 [Chen+ 2016]

Slide 17

Slide 17 text

l解釈可能性 ○ 各軸を解釈可能にするために辞書に基づいた損失関数を設計 [Arora + 2018] ○ 各軸の正負の両側で解釈可能にする損失関数を設計 [Mathew + 2020, Engler + 2022] lスパース性 ○ 𝑘 −スパースオートエンコーダ [Makhzani & Frey 2013, Subramanian + 2018] ○ スパースコーディング [Murphy + 2012, Luo + 2015] ○ 𝑙! 正則化 [Sun + 2015] l Disentanglement による解釈可能性 ○ 画像のVAEに対するDisentanglement [Kim+ 2018] ○ 単語埋め込みのDisentanglement [Liao+ 2020] ○ GANにおけるDisentangleな表現学習 [Chen+ 2016] 埋め込み表現 17 今⽇のテーマ︓ ICA による後処理で 解釈可能性・スパース性 を実現できる

Slide 18

Slide 18 text

ICAによる埋め込みの分析 (本題)

Slide 19

Slide 19 text

単語埋め込みのヒートマップ 19 l Skip-gram with Negative Sampling [Mikolov+ 2013] で学習した単語ベクトル l ヒートマップ ○ ⾏: 単語ベクトル ○ 列: 次元 (5/300) l 各要素の⼤⼩は解釈できない ○ 独⽴な意味成分が300個の次元に分散して それぞれの単語の意味を表現しているので ⾃然なこと Mikolov et al. Distributed representa4ons of words and phrases and their composi4onality. NIPS2013.

Slide 20

Slide 20 text

PCAよりもICAの⽅が上⼿く解釈できる 20

Slide 21

Slide 21 text

スパース性 21 l 2軸に沿った散布図 ○ イタリア軸と⾞軸 ○ ⽇本軸と映画軸 l 独⽴な座標軸に沿った埋め込み の分布が「尖っている」

Slide 22

Slide 22 text

スパース性 22 l 2軸に沿った散布図 ○ イタリア軸と⾞軸 ○ ⽇本軸と映画軸 l 独⽴な座標軸に沿った埋め込み の分布が「尖っている」 l 加法構成性 ○ Ferrari ≈ italian + cars ○ kurosawa ≈ japanese + film l 300次元よりも⼩さな部分 空間で単語の意味を表現

Slide 23

Slide 23 text

スパース性の定量評価 23 l ICAをした埋め込みは少数の 次元で単語の意味を表すこと を確認 l 評価⽤タスク 1. Analogy: Tokyo – Japan + France = ? 2. Word Similarity: (car, vehicle) = 5, (car, sushi) = 1 l 使⽤する⾮ゼロ要素数を減ら して性能を評価 実験設定

Slide 24

Slide 24 text

スパース性の定量評価 24 l ICAをした埋め込みは少数の 次元で単語の意味を表すこと を確認 l 評価⽤タスク 1. Analogy: Tokyo – Japan + France = ? 2. Word Similarity: (car, vehicle) = 5, (car, sushi) = 1 l 使⽤する⾮ゼロ要素数を減ら して性能を評価 実験設定 実験結果 ICAをした埋め込みは ⾮ゼロ成分が10個でも 意味の演算の精度が落ちづらい

Slide 25

Slide 25 text

ICAでわかる性質は さまざまな埋め込みに普遍的

Slide 26

Slide 26 text

背景︓多⾔語の埋め込み l 異なる⾔語の単語埋め込みが回転で重なる [Xing et al. 2015, Artetxe et al. 2016] 26 英語 スペイン語 l 重ね合わせる直交変換を学習できる l Procrustes問題 Xing et al. Normalized Word Embedding and Orthogonal Transform for Bilingual Word Translation. NAACL 2015. Artetxe et al. Learning principled bilingual mappings of word embeddings while preserving monolingual invariance. EMNLP 2016.

Slide 27

Slide 27 text

背景︓多⾔語の埋め込み l 異なる⾔語の単語埋め込みが回転で重なる [Xing et al. 2015, Artetxe et al. 2016] 27 英語 スペイン語 l 重ね合わせる直交変換を学習できる l Procrustes問題 l 別々に ICA をしたときの共通性を確認した [YOS, EMNLP 2023] Xing et al. Normalized Word Embedding and Orthogonal Transform for Bilingual Word Translation. NAACL 2015 Artetxe et al. Learning principled bilingual mappings of word embeddings while preserving monolingual invariance. EMNLP 2016

Slide 28

Slide 28 text

まず,英語の埋め込みを可視化 28 英語

Slide 29

Slide 29 text

ICA: 異なる⾔語の埋め込みで形と意味が共通 29

Slide 30

Slide 30 text

PCA: 共通の性質を⾒つけられない 30

Slide 31

Slide 31 text

ICA: モデルやドメインの違いを超えた普遍性 31

Slide 32

Slide 32 text

ICA: モデルやドメインの違いを超えた普遍性 32

Slide 33

Slide 33 text

PCA: やはりうまくいかない 33

Slide 34

Slide 34 text

ICAがPCAよりも上⼿くいく理由

Slide 35

Slide 35 text

ICAは⽩⾊化+直交変換 l ICA は変換後の 𝐒 が独⽴になるような 𝐁 を推定 l 独⽴ならば無相関なので 𝐁 は 𝐒 を無相関にする変換 35 𝐒 = 𝐗𝐁 無相関にする変換 独⽴にする変換 𝐁

Slide 36

Slide 36 text

ICAは⽩⾊化+直交変換 l ICA は変換後の 𝐒 が独⽴になるような 𝐁 を推定 l 独⽴ならば無相関なので 𝐁 は 𝐒 を無相関にする変換 l 無相関にするために PCA が使える l 各成分の分散 𝔼 𝑠! " = 1 として良いので 𝐀 は⽩⾊化の変換 36 𝐒 = 𝐗𝐁 = 𝐗𝐀𝐑 ⽩⾊化の変換 独⽴にする変換 𝐁 𝐀

Slide 37

Slide 37 text

ICAは⽩⾊化+直交変換 l ICA は変換後の 𝐒 が独⽴になるような 𝐁 を推定 l 独⽴ならば無相関なので 𝐁 は 𝐒 を無相関にする変換 l 無相関にするために PCA が使える l 各成分の分散 𝔼 𝑠! " = 1 として良いので 𝐀 は⽩⾊化の変換 l 𝔼 𝐙𝐙# = 𝑰 ⇒ 𝔼 (𝐙𝐑)(𝐙𝐑)# = 𝑰 なので, ⽩⾊化の変換は回転(直交変換)の⾃由度がある 37 𝐒 = 𝐗𝐁 = 𝐗𝐀𝐑 ⽩⾊化の変換 独⽴にする変換 𝐀 𝐀′ 回転 𝐑 𝐁

Slide 38

Slide 38 text

ICAは⽩⾊化+直交変換 l ICA は変換後の 𝐒 が独⽴になるような 𝐁 を推定 l 独⽴ならば無相関なので 𝐁 は 𝐒 を無相関にする変換 l 無相関にするために PCA が使える l 各成分の分散 𝔼 𝑠! " = 1 として良いので 𝐀 は⽩⾊化の変換 l 𝔼 𝐙𝐙# = 𝑰 ⇒ 𝔼 (𝐙𝐑)(𝐙𝐑)# = 𝑰 なので, ⽩⾊化の変換は回転(直交変換)の⾃由度がある l 回転 𝐑𝐢𝐜𝐚 を推定することで 𝐁 = 𝐀𝐑𝐢𝐜𝐚 を推定できる l どのように 𝐑𝐢𝐜𝐚 を⾒つけるか︖ 38 𝐒 = 𝐗𝐁 = 𝐗𝐀𝐑𝐢𝐜𝐚 ⽩⾊化の変換 独⽴にする変換 𝐀 𝐑𝐢𝐜𝐚 𝐁 𝐀′

Slide 39

Slide 39 text

相互情報量の最⼩化で独⽴にする 39 l 独⽴性の定義︓ 𝑝'! ⋯ '" 𝑠) , ⋯ , 𝑠* = 𝑝'! 𝑠) ⋯ 𝑝'" 𝑠* ○ 𝑃 = 𝑝'! ⋯ '" 𝑠), ⋯ , 𝑠* (同時分布)𝑄 = 𝑝'! 𝑠) ⋯ 𝑝'" 𝑠* (周辺分布) 𝐒 = 𝐗𝐀𝐑𝐢𝐜𝐚

Slide 40

Slide 40 text

相互情報量の最⼩化で独⽴にする 40 l 独⽴性の定義︓ 𝑝'! ⋯ '" 𝑠) , ⋯ , 𝑠* = 𝑝'! 𝑠) ⋯ 𝑝'" 𝑠* ○ 𝑃 = 𝑝'! ⋯ '" 𝑠), ⋯ , 𝑠* (同時分布)𝑄 = 𝑝'! 𝑠) ⋯ 𝑝'" 𝑠* (周辺分布) l KL 𝑃 ∥ 𝑄 = 0 ならば 𝑃 = 𝑄 なので 𝑆) ⋯ 𝑆* は独⽴ 𝐒 = 𝐗𝐀𝐑𝐢𝐜𝐚

Slide 41

Slide 41 text

相互情報量の最⼩化で独⽴にする 41 l 独⽴性の定義︓ 𝑝'! ⋯ '" 𝑠) , ⋯ , 𝑠* = 𝑝'! 𝑠) ⋯ 𝑝'" 𝑠* ○ 𝑃 = 𝑝'! ⋯ '" 𝑠), ⋯ , 𝑠* (同時分布)𝑄 = 𝑝'! 𝑠) ⋯ 𝑝'" 𝑠* (周辺分布) l KL 𝑃 ∥ 𝑄 = 0 ならば 𝑃 = 𝑄 なので 𝑆) ⋯ 𝑆* は独⽴ l KL 𝑃 ∥ 𝑄 = ∑ 𝐻(𝑆! ) − 𝐻 𝑆) ⋯ 𝑆* = 𝐼(𝑆) ⋯ 𝑆* ) (相互情報量) ○ 相互情報量の最⼩化 ⟺ KL 𝑃 ∥ 𝑄 の最⼩化 ⟺ 各成分を独⽴にする ○ 各成分のエントロピー 𝐻(𝑆!) を最⼩化する ○ 𝐻(𝑆! ) の最⼩化 ⟺ 𝑆! の分布の⾮ガウス性を最⼤化 ○ ∵ 平均と分散が固定のときガウス分布はエントロピーを最⼤化する分布 (最⼤エントロピー原理) 𝐒 = 𝐗𝐀𝐑𝐢𝐜𝐚 𝐻 𝑆! = − % 𝑃"C 𝑠! log 𝑃"C 𝑠! 𝑑𝑠!

Slide 42

Slide 42 text

相互情報量の最⼩化で独⽴にする 42 l 独⽴性の定義︓ 𝑝'! ⋯ '" 𝑠) , ⋯ , 𝑠* = 𝑝'! 𝑠) ⋯ 𝑝'" 𝑠* ○ 𝑃 = 𝑝'! ⋯ '" 𝑠), ⋯ , 𝑠* (同時分布)𝑄 = 𝑝'! 𝑠) ⋯ 𝑝'" 𝑠* (周辺分布) l KL 𝑃 ∥ 𝑄 = 0 ならば 𝑃 = 𝑄 なので 𝑆) ⋯ 𝑆* は独⽴ l KL 𝑃 ∥ 𝑄 = ∑ 𝐻(𝑆! ) − 𝐻 𝑆) ⋯ 𝑆* = 𝐼(𝑆) ⋯ 𝑆* ) (相互情報量) ○ 相互情報量の最⼩化 ⟺ KL 𝑃 ∥ 𝑄 の最⼩化 ⟺ 各成分を独⽴にする ○ 各成分のエントロピー 𝐻(𝑆!) を最⼩化する ○ 𝐻(𝑆! ) の最⼩化 ⟺ 𝑆! の分布の⾮ガウス性を最⼤化 ○ ∵ 平均と分散が固定のときガウス分布はエントロピーを最⼤化する分布 (最⼤エントロピー原理) 𝐒 = 𝐗𝐀𝐑𝐢𝐜𝐚

Slide 43

Slide 43 text

相互情報量の最⼩化で独⽴にする 43 l 独⽴性の定義︓ 𝑝'! ⋯ '" 𝑠) , ⋯ , 𝑠* = 𝑝'! 𝑠) ⋯ 𝑝'" 𝑠* ○ 𝑃 = 𝑝'! ⋯ '" 𝑠), ⋯ , 𝑠* (同時分布)𝑄 = 𝑝'! 𝑠) ⋯ 𝑝'" 𝑠* (周辺分布) l KL 𝑃 ∥ 𝑄 = 0 ならば 𝑃 = 𝑄 なので 𝑆) ⋯ 𝑆* は独⽴ l KL 𝑃 ∥ 𝑄 = ∑ 𝐻(𝑆! ) − 𝐻 𝑆) ⋯ 𝑆* = 𝐼(𝑆) ⋯ 𝑆* ) (相互情報量) ○ 相互情報量の最⼩化 ⟺ KL 𝑃 ∥ 𝑄 の最⼩化 ⟺ 各成分を独⽴にする ○ 各成分のエントロピー 𝐻(𝑆!) を最⼩化する ○ 𝐻(𝑆! ) の最⼩化 ⟺ 𝑆! の分布の⾮ガウス性を最⼤化 ○ ∵ 平均と分散が固定のときガウス分布はエントロピーを最⼤化する分布 (最⼤エントロピー原理) 𝐒 = 𝐗𝐀𝐑𝐢𝐜𝐚

Slide 44

Slide 44 text

相互情報量の最⼩化で独⽴にする 44 l 独⽴性の定義︓ 𝑝'! ⋯ '" 𝑠) , ⋯ , 𝑠* = 𝑝'! 𝑠) ⋯ 𝑝'" 𝑠* ○ 𝑃 = 𝑝'! ⋯ '" 𝑠), ⋯ , 𝑠* (同時分布)𝑄 = 𝑝'! 𝑠) ⋯ 𝑝'" 𝑠* (周辺分布) l KL 𝑃 ∥ 𝑄 = 0 ならば 𝑃 = 𝑄 なので 𝑆) ⋯ 𝑆* は独⽴ l KL 𝑃 ∥ 𝑄 = ∑ 𝐻(𝑆! ) − 𝐻 𝑆) ⋯ 𝑆* = 𝐼(𝑆) ⋯ 𝑆* ) (相互情報量) ○ 相互情報量の最⼩化 ⟺ KL 𝑃 ∥ 𝑄 の最⼩化 ⟺ 各成分を独⽴にする ○ 各成分のエントロピー 𝐻(𝑆!) を最⼩化する ○ 𝐻(𝑆! ) の最⼩化 ⟺ 𝑆! の分布の⾮ガウス性を最⼤化 ○ ∵ 平均と分散が固定のときガウス分布はエントロピーを最⼤化する分布 (最⼤エントロピー原理) 𝐒 = 𝐗𝐀𝐑𝐢𝐜𝐚

Slide 45

Slide 45 text

相互情報量の最⼩化で独⽴にする 45 l 独⽴性の定義︓ 𝑝'! ⋯ '" 𝑠) , ⋯ , 𝑠* = 𝑝'! 𝑠) ⋯ 𝑝'" 𝑠* ○ 𝑃 = 𝑝'! ⋯ '" 𝑠), ⋯ , 𝑠* (同時分布)𝑄 = 𝑝'! 𝑠) ⋯ 𝑝'" 𝑠* (周辺分布) l KL 𝑃 ∥ 𝑄 = 0 ならば 𝑃 = 𝑄 なので 𝑆) ⋯ 𝑆* は独⽴ l KL 𝑃 ∥ 𝑄 = ∑ 𝐻(𝑆! ) − 𝐻 𝑆) ⋯ 𝑆* = 𝐼(𝑆) ⋯ 𝑆* ) (相互情報量) ○ 相互情報量の最⼩化 ⟺ KL 𝑃 ∥ 𝑄 の最⼩化 ⟺ 各成分を独⽴にする ○ 各成分のエントロピー 𝐻(𝑆!) を最⼩化する ○ 𝐻(𝑆! ) の最⼩化 ⟺ 𝑆! の分布の⾮ガウス性を最⼤化 ○ ∵ 平均と分散が固定のときガウス分布はエントロピーを最⼤化する分布 (最⼤エントロピー原理) l 𝑆! の分布の⾮ガウス性を 𝔼 𝐺 𝑆! − 𝔼 𝐺 𝑍 " で定量化してこれを最⼤化 ○ 𝐺(F) はコントラスト関数 ○ 𝑍 はガウス分布に従う確率変数 𝐒 = 𝐗𝐀𝐑𝐢𝐜𝐚

Slide 46

Slide 46 text

コントラスト関数 𝑮(*) の具体例 46 l 独⽴性の定義︓ 𝑝'! ⋯ '" 𝑠) , ⋯ , 𝑠* = 𝑝'! 𝑠) ⋯ 𝑝'" 𝑠* ○ 𝑃 = 𝑝'! ⋯ '" 𝑠), ⋯ , 𝑠* (同時分布)𝑄 = 𝑝'! 𝑠) ⋯ 𝑝'" 𝑠* (周辺分布) l KL 𝑃 ∥ 𝑄 = 0 ならば 𝑃 = 𝑄 なので 𝑆) ⋯ 𝑆* は独⽴ l KL 𝑃 ∥ 𝑄 = ∑ 𝐻(𝑆! ) − 𝐻 𝑆) ⋯ 𝑆* = 𝐼(𝑆) ⋯ 𝑆* ) (相互情報量) ○ 相互情報量の最⼩化 ⟺ KL 𝑃 ∥ 𝑄 の最⼩化 ⟺ 各成分を独⽴にする ○ 各成分のエントロピー 𝐻(𝑆!) を最⼩化する ○ 𝐻(𝑆! ) の最⼩化 ⟺ 𝑆! の分布の⾮ガウス性を最⼤化 ○ ∵ 平均と分散が固定のときガウス分布はエントロピーを最⼤化する分布 (最⼤エントロピー原理) l 𝑆! の分布の⾮ガウス性を 𝔼 𝐺 𝑆! − 𝔼 𝐺 𝑍 " で定量化してこれを最⼤化 ○ 𝑮(F) はコントラスト関数 ○ 𝑍 はガウス分布に従う確率変数 𝐺 𝑆$ = 𝔼(𝑆$ ") 𝐺 𝑆$ = 𝔼 𝑆$ % − 3 𝐺 𝑥 = − exp −𝑥#/2 𝐺 𝑥 = log cosh(𝑥) [Hyvärinen. Fast and Robust Fixed-Point Algorithms for Independent Component Analysis. Neural Networks 1999.]

Slide 47

Slide 47 text

ICA が独⽴な軸を⾒つける⼿順 1. ⽩⾊化 (PCA): 各軸を無相関にする 2. 直交変換: 各軸の⾮ガウス性を最⼤化する ICAとPCAの違い 47 𝐒 = 𝐗𝐀𝐑𝐢𝐜𝐚 ⽩⾊化の変換 独⽴にする変換 𝐀 𝐑𝐢𝐜𝐚 𝐁 𝐀′ 2次モーメントまで考慮 ⾼次モーメントを考慮 ICA PCA ZCA 因⼦分析

Slide 48

Slide 48 text

ICAとPCAの違い 48 𝐒 = 𝐗𝐀𝐑𝐢𝐜𝐚 ICA = PCA + 直交変換 l PCA: 「尖った形状」を⾒つけられない l ICA: 「尖った形状」を⾒つけられる

Slide 49

Slide 49 text

ICAとPCAの違い ICA をしてわかったこと l 埋め込みの分布は「尖った」形状 l 「尖った」形状が解釈可能 l ICA は「尖り」を⾒つけられる 49

Slide 50

Slide 50 text

ICAが取り除けない⾼次相関 ⼤⼭, ⼭際, 下平. 依存関係の⼤きさは意味の関連性を表す. NLP2024.

Slide 51

Slide 51 text

独⽴成分同⼠の⾼次相関 51 l ICAの仮定︓独⽴成分が「線形に分離できる」 l 多くの現実のデータはそうなっていない [Hyvärinen et al. 2001, Sasaki et al. 2013, 2014.] l これによりICAで取り除けない従属性がある l 従属性を⾼次相関で調べた l 単語埋め込みの ICA の成分 ○ 相関は0 ○ ⾼次の相関がある E 𝒔$ #𝒔& # = 1 𝑛 = '(! ) 𝑆',$ # 𝑆',& #

Slide 52

Slide 52 text

独⽴成分同⼠の⾼次相関 52 l ICAの仮定︓独⽴成分が「線形に分離できる」 l 多くの現実のデータはそうなっていない [Hyvärinen et al. 2001, Sasaki et al. 2013, 2014.] l これによりICAで取り除けない従属性がある l 従属性を⾼次相関で調べた l 単語埋め込みの ICA の成分 ○ 相関は0 ○ ⾼次の相関がある E 𝒔$ #𝒔& # = 1 𝑛 = '(! ) 𝑆',$ # 𝑆',& # 従属性を解釈したい どのような成分間で⾼次相関が ⼤きくなるのか︖

Slide 53

Slide 53 text

⾼次相関が強いと意味の関連性が⾼い 53 楽器・コンサート 幾何学・TeX数式 品詞・時制 DNA・⽣物 化学・科学 Organization・UNESCO ⾼次相関が⼤きな上位6つの成分ペア

Slide 54

Slide 54 text

⾼次相関が強いと意味の関連性が⾼い ⾼次相関が弱いと意味の関連性が低い 54 楽器・コンサート 幾何学・TeX数式 品詞・時制 DNA・⽣物 化学・科学 組織・UNESCO 楽器・動物 幾何学・機能語 品詞・⼈⼝/統計 DNA・職業 化学・イスラム 組織・⼈ 独⽴ならば E 𝒔! "𝒔+ " = ) , ∑-.) , 𝑆-,! " 𝑆-,+ " = 1

Slide 55

Slide 55 text

⾼次相関が強いペアの可視化 55 l グラフ 𝐺 ○ 頂点︓各成分 𝐬! ○ 辺の重み︓exp(−E(𝐬! "𝐬+ ")) l 𝐺 の最⼩全域⽊ 𝑇 を可視化

Slide 56

Slide 56 text

意味のまとまりを表す⽊が得られる 56 l グラフ 𝐺 ○ 頂点︓各成分 𝐬! ○ 辺の重み︓exp(−E(𝐬! "𝐬+ ")) l 𝐺 の最⼩全域⽊ 𝑇 を可視化 DNA, blood, disorder, drugs voltage, wavelength, blue Windows, ip, telephone court, rights, license acid, element, rocks cpu, disk, audio site, http, ip

Slide 57

Slide 57 text

意味のまとまりを表す⽊が得られる 57 DNA, blood, disorder, drugs voltage, wavelength, blue Windows, ip, telephone court, rights, license acid, element, rocks cpu, disk, audio site, h=p, ip 展望︓ 埋め込みの解釈可能 な次元圧縮

Slide 58

Slide 58 text

まとめ

Slide 59

Slide 59 text

まとめ 59 l 独⽴成分分析(ICA)を埋め込みの分析に使った l ICAが定める座標軸は埋め込みの尖った形状と対応 埋め込みの尖った形状が解釈可能 l この性質は様々な埋め込みに共通する l PCAは「尖った形状」を⾒つけられない ICAが⾒つけられるのは⾮ガウス性を考慮するから l 理論と現実のギャップによって⾼次相関が⽣じる ⾼次相関は解釈可能な意味の関連性を表す